首页 > 教程攻略 > ai资讯 >刚刚,DeepSeek识图模式全量上线,却认不出自家老板梁文锋

刚刚,DeepSeek识图模式全量上线,却认不出自家老板梁文锋

来源:互联网 时间:2026-06-19 13:12:47

端午节前,DeepSeek果然没让人失望,又带来了一波新动作:最新平台全量推送了识图模式,手机端App也迎来了更新,打开就能用。



其实此前已经有不少网友体验过这个功能,但当时它还处在小范围的灰度测试阶段,只有部分用户能在最新App或网页版里看到。今天下午,不少人都发现,自己也能用了。



出于好奇,自然也免不了要亲自上手试一试。

第一个测试案例,选了黄仁勋前段时间在北京小吃街喝豆汁的图片。结果嘛......人物确实认出来了,但瓶身上的“豆汁”字样完全被忽略,生生被认成了牛奶。表情解读当然也不够精准。





不过,换用深度思考模式后,情况有了微妙的变化。虽然DeepSeek依然“看不清”瓶身上的“尹三豆汁”字样,但它依靠推理能力和世界知识,硬是推断出了这玩意儿是豆汁。表情解读方面嘛,深度思考也没帮上什么大忙。





社交媒体上,不少网友也试了人物识别,效果嘛......像何同学这样的知名人物都识别错了。



就连DeepSeek自家创始人梁文锋本人,也照样没被认出来。从思考过程来看,它识别人物主要靠视觉线索——比如面部特征、发型——与公众形象做对比。这种思路下准确率不高倒也正常,毕竟像黄仁勋那样特征极其鲜明的人只是少数。



还有一个值得注意的点:安全限制卡得比较严。上传一张雷军近期的热门图,直接被告知“可能违反使用规范”。



轮到潦草汉字识别的挑战了。图片上的字横线干扰、笔画粘连不说,还刻意加上了错别字混淆视听。



结果呢?7个字,认错了4个。模型在真实场景手写文本识别、领域词汇约束和语义纠错方面,显然还有不小的提升空间。



不过,识别文物的能力倒是让人眼前一亮。虽然没成功找到具体出处,但判断为莫卧儿帝国风格,还详细分析了工艺细节。这个表现值得肯定。



更考验眼力的题目,比如从一堆袜子中找出完全相同的两只——答案是第一行第三个和第三行第二个——DeepSeek也没找对。



钢琴和弦识别测试更是暴露了短板。上传一张钢琴弹奏实拍图,问“弹的是什么和弦”。按照钢琴键盘的规律,两黑键中间的白键永远是D音,从D出发可以推断出相邻的C和E等音高,正确答案应是ACE。DeepSeek的判断是错的。



作为对比,同时测了Gemini 3.5 flash、GPT 5.5和Claude Sonnet 4.6。前两个都没答对,最后一个直接罢工。由此可见,这些大模型在乐理推理方面普遍存在局限。



Gemini 3.5 flash答错。



GPT 5.5答错。



Claude Sonnet 4.6罢工。

测试时间有限,没办法面面俱到,大家可以亲自上手试试看。

随着识图模式全量发布,开发者们也开始抛出更多疑问:它和DeepSeek 4.1有没有关系?背后的技术是不是用了原生多模态?多模态的API什么时候上线?







这些问题出现在DeepSeek多模态团队研究者Xiaokang Chen的X贴文评论区,不过他本人并没有给出答案。或许过几天,DeepSeek会发布相关的技术文档,到时自然就清楚了。