首页 > 教程攻略 > ai资讯 >清华开源LongCite，如何提高大模型的溯源能力？

清华开源LongCite，如何提高大模型的溯源能力？

来源：互联网时间：2026-05-30 09:28:56

在长文本生成场景中，如何让大模型准确引用来源，一直是工业界落地时最常被追问的能力点。最近清华团队开源了一套名为 LongCite 的方案，包含评测基准、45k 的监督微调数据集、两个开源模型，以及一套完整的数据生成流程。整体来看，思路干净、效果扎实，值得拆开细看。

清华开源LongCite，如何提高大模型的溯源能力？

数据集
：LongCite-45k
模型
：LongCite-glm4-9b、LongCite-llama3.1-8b
代码
：GitHub

项目最值得关注的部分，其实是数据生成的 pipeline——如下图所示，分三步加一步过滤。为什么没有一步到位？团队的解释是：分步走能让数据更干净——先拿到答案，再给答案配上引用，这样引用和回答不会互相污染。

QA 数据生成
：让大模型基于给定的长篇文本，自动构造相关的问题和答案。
块级引用生成
：给文本分块，给每个块打上引用标记，然后结合问题和答案，生成带有引用标注的 chunk 级 QA 数据。
句子级引用提取
：从每个 chunk 的引用中，进一步抽取出支撑每个具体陈述的句子，形成更细粒度的引用。
过滤
：扔掉那些引用数量不足的样本，确保数据质量。

从数据分布上看，中文占比更高——这对国内私有化场景来说，恰好是个好消息。整体效果相比基线有明显提升，尤其在需要精准引用的长文本任务上，表现扎实。

相关阅读

相关下载

AI自动绘画大师

益智休闲 | 5.72MB

下载