清华开源LongCite,如何提高大模型的溯源能力?
来源:互联网
时间:2026-05-30 09:28:56
在长文本生成场景中,如何让大模型准确引用来源,一直是工业界落地时最常被追问的能力点。最近清华团队开源了一套名为 LongCite 的方案,包含评测基准、45k 的监督微调数据集、两个开源模型,以及一套完整的数据生成流程。整体来看,思路干净、效果扎实,值得拆开细看。

项目最值得关注的部分,其实是数据生成的 pipeline——如下图所示,分三步加一步过滤。为什么没有一步到位?团队的解释是:分步走能让数据更干净——先拿到答案,再给答案配上引用,这样引用和回答不会互相污染。
- :让大模型基于给定的长篇文本,自动构造相关的问题和答案。
QA 数据生成
- :给文本分块,给每个块打上引用标记,然后结合问题和答案,生成带有引用标注的 chunk 级 QA 数据。
块级引用生成
- :从每个 chunk 的引用中,进一步抽取出支撑每个具体陈述的句子,形成更细粒度的引用。
句子级引用提取
- :扔掉那些引用数量不足的样本,确保数据质量。
过滤
从数据分布上看,中文占比更高——这对国内私有化场景来说,恰好是个好消息。整体效果相比基线有明显提升,尤其在需要精准引用的长文本任务上,表现扎实。