视觉大模型遭遇滑铁卢:首个中国古文字OCR评测基准开源
顶尖的人工智能,不仅要能解析屏幕上跳动的现代代码,更需要读懂三千年前龟甲兽骨上的刻痕。近日,腾讯混元大模型、SSV数字文化实验室联合多所高校与故宫博物院,共同发布了“Chronicles-OCR”。这是业界首个完整覆盖汉字“七体之变”演化轨迹的中国古文字感知评测基准。

为了真实、客观地衡量大模型的识别能力,该数据集由领域专家进行了多层级交叉标注,最终包含了2800张严格平衡的高质量图像。在标注策略上,团队也做了针对性区分:对于甲骨文、金文、篆书等古早字体,采用了单字级的精细标注;而对于隶书、楷书、行书、草书等更为成熟的字体,则采用了保留原始阅读顺序的序列级转写。
主流视觉模型全军覆没
基于这一基准,项目团队设计了四个层层递进的核心评测任务,其核心思路在于严格将模型的“视觉感知”能力与“语义推理”能力解耦开来。随后,他们对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大语言模型进行了系统性评测,结果却出人意料。
当面对缺乏现代版式先验知识的古早字体时,主流大模型在端到端的文本检测任务中几乎全部失效。即便是在细粒度识别任务上,最高准确率也仅有27.1%。一个更有趣的发现是,在此类任务中,如果强行开启大模型的“推理”模式,非但无法帮助理解,反而会放大视觉感知阶段的不确定性,导致整体识别表现进一步下降。
揭示微观笔画识别短板
评测还暴露了当前视觉大模型的另一个认知偏差:在进行字体分类时,模型更容易被载体的纹理、材质等宏观特征所吸引,而非专注于判别微观的笔画结构与风格差异。这揭示了一个关键问题——今天最顶尖的AI,在面对承载数千年文明的中国传统古文字时,距离真正的“读懂”还有很长的路要走。
汉字从殷墟甲骨一路演化至今,其形体之变,本身就是一部可视化的文明史。Chronicles-OCR基准的开源,正是直面了这一技术现实。它通过清晰可见的性能差距,为未来的视觉大模型指明了一个明确的进化方向:从简单的“识字”,走向深度的“读史”。