快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒时代结束
说到大模型的长上下文能力,大家可能已经注意到,过去一年里围绕这方面的强化学习(RL)方案可谓层出不穷。但一个现实问题是,很多方法虽然在某个特定任务上表现不错,一旦放到更全面的评测场景中就容易捉襟见肘。快手科技语言大模型团队与中国科学院大学联合提出的 GoLongRL,就是想从根本上去解决这个痛点——他们把数据覆盖面和奖励设计的多样性作为突破口,最终让一个30B的模型在综合评测中超过了多款顶级旗舰模型。


图 1:GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比
为什么现有的长上下文 RL 方法不够好?
先看当前主流方案(比如 LoongRL、LongRLVR、QwenLong-L1.5 等)的通病。第一,训练数据几乎都围绕着“在更长文本里找更难找的答案”这一条主线,任务类型高度同质化。第二,奖励函数被粗暴地压缩成精确匹配或准确率这种单一指标,像排序、摘要、穷举检索这些能力几乎得不到有效的监督信号。结果就是,模型在特定题型上练得很好,但一遇到真实的多元场景,泛化能力自然跟不上。
数据:以能力为导向
三大设计原则
GoLongRL 在数据构造上遵循了三项基本原则:
能力导向。
这 9 大任务类型及其对应的能力维度如下:

表 1:GoLongRL 数据集能力类型及其对应奖励
奖励与任务语义对齐。
真实文档优先。

图 2:训练数据的 UMAP 投影
数据来源:开源策略与合成策略并行
整个数据集由 22,965 个样本组成,来自两个互补的池子:
约 14K 个开源样本,从 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已开源的长上下文语料库中改写而来,这批样本已有人工验证的标注,覆盖法律案例、财务报告、文学小说和多轮对话等多个领域。
约 9K 个合成样本,问答对由真实源文档生成,源文档包括 Project Gutenberg 图书、arXiv CC0 等自然长文素材。需要注意,合成的是问答对本身,而非文档。
四阶段构造 Pipeline

图 3:GoLongRL 数据构造四阶段 pipeline
整个数据集通过统一的四阶段流水线生产:
P1 源语料收集:
P2 任务过滤与分配:
P3 样本构造:
P4 迭代精化:
TMN-Reweight:面向异构多任务的优化算法
能力导向的数据集带来了 9 种不同的奖励函数,它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时,优化过程会面临两个相互纠缠的问题。

TMN-Reweight 的核心思路是将尺度归一化与难度校正解耦为两个独立步骤。

实验结果
主要结果:4B 模型达到 SOTA
在 4B 规模上的实验设计使得数据贡献和算法贡献可以独立评估:

表 3:主实验 - 4B
在 4B 规模上,仅凭数据优化,vanilla GRPO 已经比 QwenLong-L1.5(GRPO)高出 6.1 分(62.2 vs 56.1),甚至超过了后者使用专用算法 AEPO 的版本(59.4 分)。结合 TMN-Reweight 后进一步提升了 0.8 分,达到 63.0。
主要结果:30B 模型超越顶级旗舰模型

表 4:主实验 - 30B
在 30B 规模上,GoLongRL-30B-A3B 以 69.8 分的综合成绩超越了 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),并全面超越了同算法(GRPO)训练的 QwenLong-L1.5-30B(67.2 分)。
通用能力保持与迁移
长上下文 RL 训练没有带来负迁移。在通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,两个规模的模型趋势保持一致。
更值得注意的是迁移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 两项任务在训练中从未出现过,但 4B 模型的 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升了 4.5 分。对话记忆任务(LongMemEval)上,两个规模均提升了 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),其中 30B 超过了 QwenLong-L1.5-30B 的 72.2 分。这说明长上下文 RL 学习到的信息整合能力可以成功迁移到训练中没见过的任务上。
长度外推能力
GoLongRL 的训练上下文长度为 160K,但能力可以泛化到更长的序列。4B 模型在 MRCR 128K-512K 区间提升了 12.27 分,在 512K-1M 区间提升了 3.50 分;30B 的效果更明显,MRCR 128K-512K 提升 12.61 分,512K-1M 提升 5.45 分,CorpusQA 1M 提升 2.74 分。简单来说,160K 训练习得的能力并没有被局限在训练长度范围内。
总结
回过头来看这个研究的核心结论:数据覆盖度和奖励多样性才是长上下文 RL 的主要瓶颈,而非算法本身。如果把任务从“复杂检索路径”扩展到更全面的能力维度,并为每种任务匹配语义合适的奖励函数,即使较小的模型也能达到与旗舰模型相当的长上下文性能。
数据集、模型以及训练与评测代码已经完整开源。