首页 > 教程攻略 > ai资讯 >快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒时代结束

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒时代结束

来源:互联网 时间:2026-06-22 16:20:47

说到大模型的长上下文能力,大家可能已经注意到,过去一年里围绕这方面的强化学习(RL)方案可谓层出不穷。但一个现实问题是,很多方法虽然在某个特定任务上表现不错,一旦放到更全面的评测场景中就容易捉襟见肘。快手科技语言大模型团队与中国科学院大学联合提出的 GoLongRL,就是想从根本上去解决这个痛点——他们把数据覆盖面和奖励设计的多样性作为突破口,最终让一个30B的模型在综合评测中超过了多款顶级旗舰模型。





图 1:GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比

为什么现有的长上下文 RL 方法不够好?

先看当前主流方案(比如 LoongRL、LongRLVR、QwenLong-L1.5 等)的通病。第一,训练数据几乎都围绕着“在更长文本里找更难找的答案”这一条主线,任务类型高度同质化。第二,奖励函数被粗暴地压缩成精确匹配或准确率这种单一指标,像排序、摘要、穷举检索这些能力几乎得不到有效的监督信号。结果就是,模型在特定题型上练得很好,但一遇到真实的多元场景,泛化能力自然跟不上。

数据:以能力为导向

三大设计原则

GoLongRL 在数据构造上遵循了三项基本原则:

能力导向。

参考 LongBench Pro 的能力分类体系,定义了 9 种核心任务类型,全面覆盖了长上下文理解所需的关键能力维度。其中 T1-T4 构成训练主干,占比超过 90%,覆盖基础的长上下文能力;T6-T9 虽然样本量较少(合计不足 4%),但每种任务都保留了最自然的奖励形式,确保能力覆盖的完整性。

这 9 大任务类型及其对应的能力维度如下:



表 1:GoLongRL 数据集能力类型及其对应奖励

奖励与任务语义对齐。

长上下文任务在评估维度上的差异非常显著——摘要依赖 ROUGE,排序依赖 NDCG,抽取依赖 F1。如果把它们统一压缩成一个指标,会损失大量任务特有的语义信息。GoLongRL 为每类任务单独配置最契合其目标的评估指标作为奖励函数,确保 RL 训练中的反馈信号与任务本身的评估逻辑保持一致。

真实文档优先。

基于模板的合成数据存在一个结构性风险:当多段短文档被拼接成较长输入时,段落边界与格式标记本身会携带可被利用的位置信息,模型容易学习依赖这类浅层线索作答的捷径,而不是形成真正的跨段落理解能力。因此 GoLongRL 以书籍、学术论文、法律文书和财务报告等真实文档为主要训练来源。对于标注稀缺的领域,只在真实文档上合成问答对,而非生成文档本身。



图 2:训练数据的 UMAP 投影

数据来源:开源策略与合成策略并行

整个数据集由 22,965 个样本组成,来自两个互补的池子:

约 14K 个开源样本,从 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已开源的长上下文语料库中改写而来,这批样本已有人工验证的标注,覆盖法律案例、财务报告、文学小说和多轮对话等多个领域。

约 9K 个合成样本,问答对由真实源文档生成,源文档包括 Project Gutenberg 图书、arXiv CC0 等自然长文素材。需要注意,合成的是问答对本身,而非文档。

四阶段构造 Pipeline



图 3:GoLongRL 数据构造四阶段 pipeline

整个数据集通过统一的四阶段流水线生产:

P1 源语料收集:

按 9 类任务分别收集有标注的开源数据集和无标注的真实文档,尽量覆盖不同领域、文档结构和长度区间。

P2 任务过滤与分配:

对每个样本按任务语义分配唯一标签。比如 CLongEval 里定位单一事实的样本归 T1,CAIL2018 里需要聚合多条法律条款的归 T3,对话记忆子类(T2)只保留超过 50 轮、30K Token 以上的对话。

P3 样本构造:

开源数据做兼容性过滤和奖励格式标准化(如把数值答案改写为 math_verify 可解析格式)。合成数据按文档长度分桶,普通长度用 DeepSeek-V3.2 生成问答对,超长文档交给 Gemini-2.5-Pro;生成后经过两阶段质量过滤——先用 Gemini-2.5-Pro 验证答案唯一性和无幻觉,再用 Qwen3-4B 和 Qwen3-30B-A3B 的多级通过率测试剔除标签噪声。

P4 迭代精化:

先做 13-gram 重叠过滤以防止数据污染,再训练并做基准诊断。如果某个维度停滞,就排查奖励作弊、答案歧义等问题并清除;信号不足就回到 P1-P3 定向补数据,循环直至性能和质量稳定。

TMN-Reweight:面向异构多任务的优化算法

能力导向的数据集带来了 9 种不同的奖励函数,它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时,优化过程会面临两个相互纠缠的问题。



TMN-Reweight 的核心思路是将尺度归一化与难度校正解耦为两个独立步骤。



实验结果

主要结果:4B 模型达到 SOTA

在 4B 规模上的实验设计使得数据贡献和算法贡献可以独立评估:



表 3:主实验 - 4B

在 4B 规模上,仅凭数据优化,vanilla GRPO 已经比 QwenLong-L1.5(GRPO)高出 6.1 分(62.2 vs 56.1),甚至超过了后者使用专用算法 AEPO 的版本(59.4 分)。结合 TMN-Reweight 后进一步提升了 0.8 分,达到 63.0。

主要结果:30B 模型超越顶级旗舰模型



表 4:主实验 - 30B

在 30B 规模上,GoLongRL-30B-A3B 以 69.8 分的综合成绩超越了 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),并全面超越了同算法(GRPO)训练的 QwenLong-L1.5-30B(67.2 分)。

通用能力保持与迁移

长上下文 RL 训练没有带来负迁移。在通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,两个规模的模型趋势保持一致。

更值得注意的是迁移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 两项任务在训练中从未出现过,但 4B 模型的 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升了 4.5 分。对话记忆任务(LongMemEval)上,两个规模均提升了 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),其中 30B 超过了 QwenLong-L1.5-30B 的 72.2 分。这说明长上下文 RL 学习到的信息整合能力可以成功迁移到训练中没见过的任务上。

长度外推能力

GoLongRL 的训练上下文长度为 160K,但能力可以泛化到更长的序列。4B 模型在 MRCR 128K-512K 区间提升了 12.27 分,在 512K-1M 区间提升了 3.50 分;30B 的效果更明显,MRCR 128K-512K 提升 12.61 分,512K-1M 提升 5.45 分,CorpusQA 1M 提升 2.74 分。简单来说,160K 训练习得的能力并没有被局限在训练长度范围内。

总结

回过头来看这个研究的核心结论:数据覆盖度和奖励多样性才是长上下文 RL 的主要瓶颈,而非算法本身。如果把任务从“复杂检索路径”扩展到更全面的能力维度,并为每种任务匹配语义合适的奖励函数,即使较小的模型也能达到与旗舰模型相当的长上下文性能。

数据集、模型以及训练与评测代码已经完整开源。