首页 > 教程攻略 > ai资讯 >快手开源GoLongRL：23K样本、9大任务类型，长上下文RL荒时代结束

快手开源GoLongRL：23K样本、9大任务类型，长上下文RL荒时代结束

来源：互联网时间：2026-06-22 16:20:47

说到大模型的长上下文能力，大家可能已经注意到，过去一年里围绕这方面的强化学习（RL）方案可谓层出不穷。但一个现实问题是，很多方法虽然在某个特定任务上表现不错，一旦放到更全面的评测场景中就容易捉襟见肘。快手科技语言大模型团队与中国科学院大学联合提出的 GoLongRL，就是想从根本上去解决这个痛点——他们把数据覆盖面和奖励设计的多样性作为突破口，最终让一个30B的模型在综合评测中超过了多款顶级旗舰模型。

图 1：GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比

为什么现有的长上下文 RL 方法不够好？

先看当前主流方案（比如 LoongRL、LongRLVR、QwenLong-L1.5 等）的通病。第一，训练数据几乎都围绕着“在更长文本里找更难找的答案”这一条主线，任务类型高度同质化。第二，奖励函数被粗暴地压缩成精确匹配或准确率这种单一指标，像排序、摘要、穷举检索这些能力几乎得不到有效的监督信号。结果就是，模型在特定题型上练得很好，但一遇到真实的多元场景，泛化能力自然跟不上。

数据：以能力为导向

三大设计原则

GoLongRL 在数据构造上遵循了三项基本原则：

能力导向。

参考 LongBench Pro 的能力分类体系，定义了 9 种核心任务类型，全面覆盖了长上下文理解所需的关键能力维度。其中 T1-T4 构成训练主干，占比超过 90%，覆盖基础的长上下文能力；T6-T9 虽然样本量较少（合计不足 4%），但每种任务都保留了最自然的奖励形式，确保能力覆盖的完整性。

这 9 大任务类型及其对应的能力维度如下：

表 1：GoLongRL 数据集能力类型及其对应奖励

奖励与任务语义对齐。

长上下文任务在评估维度上的差异非常显著——摘要依赖 ROUGE，排序依赖 NDCG，抽取依赖 F1。如果把它们统一压缩成一个指标，会损失大量任务特有的语义信息。GoLongRL 为每类任务单独配置最契合其目标的评估指标作为奖励函数，确保 RL 训练中的反馈信号与任务本身的评估逻辑保持一致。

真实文档优先。

基于模板的合成数据存在一个结构性风险：当多段短文档被拼接成较长输入时，段落边界与格式标记本身会携带可被利用的位置信息，模型容易学习依赖这类浅层线索作答的捷径，而不是形成真正的跨段落理解能力。因此 GoLongRL 以书籍、学术论文、法律文书和财务报告等真实文档为主要训练来源。对于标注稀缺的领域，只在真实文档上合成问答对，而非生成文档本身。

图 2：训练数据的 UMAP 投影

数据来源：开源策略与合成策略并行

整个数据集由 22,965 个样本组成，来自两个互补的池子：

约 14K 个开源样本，从 CLongEval、LongBench Pro、MultiTableQA、CAIL2018 等已开源的长上下文语料库中改写而来，这批样本已有人工验证的标注，覆盖法律案例、财务报告、文学小说和多轮对话等多个领域。

约 9K 个合成样本，问答对由真实源文档生成，源文档包括 Project Gutenberg 图书、arXiv CC0 等自然长文素材。需要注意，合成的是问答对本身，而非文档。

四阶段构造 Pipeline

图 3：GoLongRL 数据构造四阶段 pipeline

整个数据集通过统一的四阶段流水线生产：

P1 源语料收集：

按 9 类任务分别收集有标注的开源数据集和无标注的真实文档，尽量覆盖不同领域、文档结构和长度区间。

P2 任务过滤与分配：

对每个样本按任务语义分配唯一标签。比如 CLongEval 里定位单一事实的样本归 T1，CAIL2018 里需要聚合多条法律条款的归 T3，对话记忆子类（T2）只保留超过 50 轮、30K Token 以上的对话。

P3 样本构造：

开源数据做兼容性过滤和奖励格式标准化（如把数值答案改写为 math_verify 可解析格式）。合成数据按文档长度分桶，普通长度用 DeepSeek-V3.2 生成问答对，超长文档交给 Gemini-2.5-Pro；生成后经过两阶段质量过滤——先用 Gemini-2.5-Pro 验证答案唯一性和无幻觉，再用 Qwen3-4B 和 Qwen3-30B-A3B 的多级通过率测试剔除标签噪声。

P4 迭代精化：

先做 13-gram 重叠过滤以防止数据污染，再训练并做基准诊断。如果某个维度停滞，就排查奖励作弊、答案歧义等问题并清除；信号不足就回到 P1-P3 定向补数据，循环直至性能和质量稳定。

TMN-Reweight：面向异构多任务的优化算法

能力导向的数据集带来了 9 种不同的奖励函数，它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时，优化过程会面临两个相互纠缠的问题。

TMN-Reweight 的核心思路是将尺度归一化与难度校正解耦为两个独立步骤。

实验结果

主要结果：4B 模型达到 SOTA

在 4B 规模上的实验设计使得数据贡献和算法贡献可以独立评估：

表 3：主实验 - 4B

在 4B 规模上，仅凭数据优化，vanilla GRPO 已经比 QwenLong-L1.5（GRPO）高出 6.1 分（62.2 vs 56.1），甚至超过了后者使用专用算法 AEPO 的版本（59.4 分）。结合 TMN-Reweight 后进一步提升了 0.8 分，达到 63.0。

主要结果：30B 模型超越顶级旗舰模型

表 4：主实验 - 30B

在 30B 规模上，GoLongRL-30B-A3B 以 69.8 分的综合成绩超越了 DeepSeek-R1-0528（68.67）、Qwen3-235B-A22B-Thinking-2507（68.45）和 Gemini-2.5-Flash-Thinking（68.73），并全面超越了同算法（GRPO）训练的 QwenLong-L1.5-30B（67.2 分）。

通用能力保持与迁移

长上下文 RL 训练没有带来负迁移。在通用推理上，4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升，两个规模的模型趋势保持一致。

更值得注意的是迁移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 两项任务在训练中从未出现过，但 4B 模型的 Memory-Rec_Sum 仍提升了 9.7 分，30B 提升了 4.5 分。对话记忆任务（LongMemEval）上，两个规模均提升了 13.6 分（4B: 47.6→61.2；30B: 61.6→75.2），其中 30B 超过了 QwenLong-L1.5-30B 的 72.2 分。这说明长上下文 RL 学习到的信息整合能力可以成功迁移到训练中没见过的任务上。

长度外推能力

GoLongRL 的训练上下文长度为 160K，但能力可以泛化到更长的序列。4B 模型在 MRCR 128K-512K 区间提升了 12.27 分，在 512K-1M 区间提升了 3.50 分；30B 的效果更明显，MRCR 128K-512K 提升 12.61 分，512K-1M 提升 5.45 分，CorpusQA 1M 提升 2.74 分。简单来说，160K 训练习得的能力并没有被局限在训练长度范围内。

总结

回过头来看这个研究的核心结论：数据覆盖度和奖励多样性才是长上下文 RL 的主要瓶颈，而非算法本身。如果把任务从“复杂检索路径”扩展到更全面的能力维度，并为每种任务匹配语义合适的奖励函数，即使较小的模型也能达到与旗舰模型相当的长上下文性能。

数据集、模型以及训练与评测代码已经完整开源。