DeepSeek发布多模态模型技术报告 提出创新视觉原语推理框架
来源:互联网
时间:2026-05-01 11:50:01
4月30日,DeepSeek在GitHub平台正式发布多模态大模型及配套技术报告。报告提出基于“视觉原语”的创新推理框架,旨在解决多模态大语言模型在空间参照任务中的核心瓶颈问题。
技术报告指出,当前主流链式思维推理范式主要局限于语言学领域,现有研究多聚焦于提升模型对视觉细节的识别能力。DeepSeek团队认为,这忽视了更为根本的“参照鸿沟”问题,即自然语言的模糊性难以对复杂空间布局提供精确指引。
针对这一问题,DeepSeek提出“基于视觉原语的思考”框架,将点、边界框等空间标记提升为推理过程中的基本思维单元。该框架使模型在推理过程中具备“指代”能力,能够将认知轨迹锚定到图像的具体物理坐标上。
测试显示,该模型在计数和空间推理基准测试上表现优异,与多个前沿模型性能相当。DeepSeek此前已上线具备多模态识别能力的“识图模式”。