首页 > 教程攻略 > ai资讯 >腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

来源:互联网 时间:2026-06-03 17:44:06

5月18日,一个由腾讯混元、SSV数字文化实验室、SSV技术架构部,联合安阳师范学院甲骨文信息处理重点实验室、中科院信工所、南开大学组成的团队,正式发布了业界首个覆盖“七体之变”完整演化轨迹的中国古文字识别评测基准——Chronicles-OCR。这个基准的推出,目标很明确:就是要精准衡量当前的多模态大语言模型(VLLM),在面对横跨三千年的汉字视觉形态剧烈变迁时,其视觉感知能力究竟如何。这不仅是技术测试,更是推动数字人文领域底层技术突破的关键一步。

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

基准构建:如何为三千年的文字“出题”?

要评测,首先得有高质量的“考题”。Chronicles-OCR数据集由领域专家进行了多层级交叉标注,包含了2800张严格平衡的高质量图像。这里的关键在于“平衡”与“针对性”。项目组针对古早字体(如甲骨文、金文、篆书)与成熟字体(隶、楷、行、草)的不同特性,设计了阶段自适应的标注范式。简单来说,就是为不同发展阶段的文字“量身定制”了评判标准。

在此基础上,基准设立了四大核心任务:跨时代字符检测、细粒度古字识别、古文转写和字体分类。这套组合拳的目的,是为了实现视觉感知与语义推理能力的解耦评测。换句话说,就是要看清楚,模型到底是在“看形状”还是在“懂意思”。

评测结果:顶尖模型遭遇“滑铁卢”

基准对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流大模型进行了评测,结果揭示出当前行业多模态能力在古文字领域令人意外的短板。

首先,在古早字体上,由于完全缺乏现代版式的先验知识,端到端的字符检测任务让主流模型“全军覆没”。这好比让一个只认识印刷体的人去辨认草书,连字在哪里都找不到。

其次,在细粒度识别任务中,所有模型的最高准确率仅为27.1%。这意味着,即使找到了字,模型也多半认错。更值得玩味的是字体分类任务:模型的表现显示,它们更倾向于根据载体材料的纹理(如龟甲、青铜器的锈蚀)来判断字体,而非关注文字本身的微观笔画结构。这暴露出现有模型依赖表面纹理而非本质特征的认知偏差。

还有一个反直觉的发现:实验表明,在完成这些任务时,开启模型的推理(Reasoning)模式反而会放大感知的不确定性,导致性能下降。这说明,当基础的视觉感知能力不足时,强行进行逻辑推理只会“添乱”。

意义与展望:从“识字”到“读史”

Chronicles-OCR的开源发布,其价值远不止于一份排行榜。它清晰地量化了当前最顶尖的商用大模型与古文字实际研究需求之间存在的巨大技术鸿沟。这份基准如同一面镜子,照出了技术现状,也为学术界和工业界指明了未来优化的方向——必须强化模型在微观视觉感知上的基础能力。

让大模型从简单的“识字”走向深度的“读史”,这不仅是技术挑战,更是文化传承的使命。攻克古文字这样的长尾垂直场景,将成为多模态大模型技术走向深化、赋能文化遗产数字化的关键一步。这条路刚刚开始,但方向已然明确。