ChartGemma:基于真实图表数据的图表理解与推理模型
ChartGemma 是一个基于 PaliGemma 架构的多模态模型,它的特别之处在于:训练数据直接来自真实世界的图表图像,而非依赖数据表格。这样一来,就解决了现有图表理解模型普遍存在的“对齐性差”问题——在图表摘要、问答和事实核查等任务上,它交出了目前最先进的成绩单。
论文介绍
图表,几乎是每个领域都会用到的信息载体。但现有的图表理解模型有个共同的短板:它们更习惯读数据表,而不是看图本身;再加上视觉语言模型的对齐质量有限,处理复杂图表时往往力不从心。语言增强的视觉模型在通用任务上表现不错,可一碰到专业图表分析就露怯。研究人员尝试使用指令微调来改进,但数据质量和模型对齐问题始终没能根治。说到底,我们需要的是一种更直接、更扎实的方法,来打造一个能在多样化真实场景中高效理解和推理图表的基座模型。
约克大学、MILA - 魁北克人工智能研究所、Salesforce Research 和南洋理工大学的研究者们联手推出了 ChartGemma。和现有模型不同,它的训练数据是从图表图像本身直接生成的,因此能捕捉到更丰富的视觉细节。模型基于 PaliGemma 骨干网络,比同类模型更小、更高效。在五个基准测试中,ChartGemma 在图表摘要、问答和事实核查任务上都刷新了纪录。定性研究也表明,它生成的摘要既逼真又准确,足以应对真实场景下的图表分析。
回顾一下图表表示学习的发展路径:最早是从语言或视觉语言基础模型微调起步,后来发展到用特定图表目标进行预训练。预训练的视觉语言模型(VLM)经过指令微调后,确实在图表任务上有所提升,但问题在于它们仍然依赖底层数据表和对齐较弱的 VLM。图表建模的基准也从简单的问答扩展到了解释生成和摘要这类开放式任务。指令微调已经成了多模态 VLM 的标配,但当它被应用在图表这个垂直领域时,如果还是依赖数据表,就无法反映真实世界图表的复杂性,模型的效果自然受限。
ChartGemma 的架构基于 PaliGemma,包含 SigLIP 视觉编码器和 Gemma-2B 语言模型。视觉编码器处理 448×448 像素的图像,把图像转换成视觉标记,再映射到语言模型的嵌入空间。这些视觉标记与文本嵌入融合后,由 Gemma-2B 模型处理——输入标记使用完全注意力机制,输出标记则采用因果掩码来增强上下文理解。相比现有需要两阶段训练的图表 VLLM,ChartGemma 只用单阶段方法,直接微调指令数据即可。这得益于 PaliGemma 已经在海量图像-文本对上做了预训练,因此适应性和泛化能力都更好。
在评估环节,ChartGemma 与多种开源图表专家模型、在图表数据上微调的 VLLM 以及最先进的闭源多模态 LLM 进行了对比。测试覆盖了五个基准:ChartQA、ChartFC、ChartCheck、OpenCQA 和 Chart2Text,外加一个手动整理的 100 个未见图表的集合。性能指标包括宽松准确率、准确率,以及用 GPT-4 评价的信息量和事实正确性。结果很明确:ChartGemma 在大多数任务上都跑赢了其他模型,尤其在理解真实指令和复杂图表方面展现了出色的泛化能力——别忘了,它的参数量还相对更小。

总结一下:ChartGemma 是一个多模态模型,它借助先进的骨干网络架构,直接在真实世界的图表图像上生成数据并进行指令微调,从而解决了当前模型的几个关键短板。和那些依赖底层表格生成指令数据、再用弱对齐骨干网的做法不同,ChartGemma 直面图表图像本身,适应性更强、泛化能力更胜一筹。这一思路带来的性能提升相当显著——用更少的参数,产出更逼真、信息更丰富、事实更准确的输出。未来的工作方向包括:构建更丰富、有人工指导的微调数据集,以及提出一套通用基准,用更相关的指标来评估图表中复杂的视觉元素。
论文下载
- 地址:https://arxiv.org/abs/2407.04172
论文