首页 > 教程攻略 > 热点新闻 >DeepSeek发布多模态模型技术报告提出创新视觉原语推理框架

DeepSeek发布多模态模型技术报告提出创新视觉原语推理框架

来源：互联网时间：2026-05-01 11:50:01

4月30日，DeepSeek在GitHub平台正式发布多模态大模型及配套技术报告。报告提出基于“视觉原语”的创新推理框架，旨在解决多模态大语言模型在空间参照任务中的核心瓶颈问题。

技术报告指出，当前主流链式思维推理范式主要局限于语言学领域，现有研究多聚焦于提升模型对视觉细节的识别能力。DeepSeek团队认为，这忽视了更为根本的“参照鸿沟”问题，即自然语言的模糊性难以对复杂空间布局提供精确指引。

针对这一问题，DeepSeek提出“基于视觉原语的思考”框架，将点、边界框等空间标记提升为推理过程中的基本思维单元。该框架使模型在推理过程中具备“指代”能力，能够将认知轨迹锚定到图像的具体物理坐标上。

测试显示，该模型在计数和空间推理基准测试上表现优异，与多个前沿模型性能相当。DeepSeek此前已上线具备多模态识别能力的“识图模式”。

相关阅读

相关下载

含羞草实验研所入口

热门软件 |

影视播放视频观看福利视频

下载
iGAO视频在线观看电影

热门软件 |

影视播放视频观看福利视频

下载
中文天堂最新版

热门软件 |

影视播放视频观看福利视频

下载
中文字幕视频

热门软件 |

影视播放视频观看福利视频

下载
病娇姐姐的囚禁

角色扮演 | 392.1MB

galgame 病娇恋爱

下载