预测世界杯淘汰赛,不同AI水平差这么多?
世界杯每场比赛开打前,我习惯让AI先跑一版预测。有趣的是,几乎每个模型都能说得头头是道:有的掰着指头算球队身价,有的把小组赛数据拆得七零八落,还有的从伤病、战术到点球剧本,把比赛走向推演得像真的一样。ChatGPT、Grok、千问、DeepSeek、Gemini、Claude……一个个看起来都像是资深球迷。
但真正值得关注的,不是哪个模型写得最完整,而是哪个模型真正靠得住。
随着世界杯进入淘汰赛阶段,
Odaily星球日报从首场比赛就开始了一轮“测试”——赛前用尽量相同的问题抛出给不同AI模型,赛后拿着真实结果去复盘:谁是分析得漂亮,谁是真的捕捉到了比赛脉络。
目前已经踢完的淘汰赛场次有:加拿大1:0绝杀南非,巴西2:1险胜日本,德国被巴拉圭拖进点球大战后出局,荷兰也倒在了摩洛哥的点球之下。到了比利时对塞内加尔,比赛更是踢成2:2后加时逆转,直接把淘汰赛的不确定性拉到了顶点。
DeepSeek 和 Gemini,靠预判摩洛哥一战封神
目前最有记忆点的一场,是DeepSeek和Gemini对荷兰vs摩洛哥的预测。
DeepSeek和Gemini厉害的地方在于,它们没有停留在“这场会很胶着”这一步,而是把后面的剧本也写出来了。
Gemini赛前直接给出常规时间1:1,点球大战摩洛哥胜。

Gemini 预测荷兰对阵摩洛哥的比赛
DeepSeek也很接近。
它判断这场常规时间大概率是1:1或0:0,比赛可能一路拖到加时甚至点球,并倾向于摩洛哥靠防守和反击爆冷晋级。

Deepseek 预测荷兰对阵摩洛哥的比赛
这一场之后,DeepSeek和Gemini的存在感直接拉满。尤其是Gemini,这次不像在做赛前预测,更像是提前看过比赛剧本。
Grok 和千问连续命中具体比分,稳定性比想象中更强
除了DeepSeek和Gemini在摩洛哥那场打出高光,Grok和千问的表现也不容忽视。
它们最亮眼的地方,是在一些胜负方向相对清晰的比赛里,不只判断对了晋级球队,还把具体比分也预测得较为贴近最终结果。
南非对加拿大就是例子。赛前多数AI模型都看好加拿大,但分歧在于加拿大会不会轻松赢。Grok赛前给出加拿大1:0的预测,千问也给出过一球小胜。最后加拿大确实只靠一个进球过关,没有踢成想象中的大胜局。

千问预测南非对阵加拿大的比赛
巴西对日本也是类似。大部分AI模型都觉得巴西更强,但日本能不能咬住比分,才是这场的关键。Grok和千问都预测比分会是2:1,最后比赛也真的踢成巴西2:1险胜。它们看对的不是“巴西会赢”这么简单,而是日本能给巴西制造足够麻烦。
科特迪瓦对挪威这场,两者同样踩得比较准。挪威有哈兰德,晋级方向不难判断,但科特迪瓦的身体对抗和边路冲击也不会让比赛变成一边倒。Grok和千问都预测挪威2:1获胜,最后比分也刚好落在这个“剧本”里。

Gork 预测科特迪瓦对阵挪威的比赛
Grok和千问的优势,是把热门局看得更细。
它们没有提前写出摩洛哥淘汰荷兰这种大剧本,但在加拿大、巴西、挪威、法国这些比赛里,胜负方向和比分落点都给得比较贴。
ChatGPT 没有太多神比分,但比赛过程分析比较准
ChatGPT没有像Gemini那样提前预测出摩洛哥点球淘汰荷兰,也没有像Grok、千问那样连续踩中几个具体比分。但它的优势在于——很多比赛赛前看起来强队占优,ChatGPT会更明显地提醒一句:这场可能没有那么轻松。
巴西对日本就是例子。ChatGPT预测巴西晋级,但没有写成巴西轻松碾压,而是提到日本的压迫、跑动和纪律性会让巴西踢得不舒服,甚至有机会先进球或追平。科特迪瓦对挪威也是类似,ChatGPT预测挪威晋级,但提前说明这不是一场轻松局,科特迪瓦的身体对抗、边路冲击和转换能力都会制造麻烦。
此外,英格兰对刚果民主共和国这场淘汰赛,ChatGPT也没有简单写英格兰大胜,而是认为比赛可能会比较闷,刚果民主共和国会用低位防守把节奏拖住。最后英格兰虽然晋级,但赢得并不轻松。

ChatGPT 预测英格兰对阵刚果民主共和国的比赛
ChatGPT的长处,
不在于每次都把比分预测得很准,而是经常能提前说出比赛的阻力在哪里
德国出局,成了 AI 模型的集体翻车现场
如果说前面几场还能看出不同模型各自的亮点,那么德国对巴拉圭这场,就是一次集体翻车。
赛前,所有AI模型都站在德国这边。
但结果就是这场出了问题。AI模型们低估了巴拉圭把比赛拖进泥潭的能力,德国没能在常规时间解决战斗,也没能在加时赛打破僵局,最后被巴拉圭拖进点球大战并淘汰出局。
目前谁最准?
从已经结束的淘汰赛来看,不同模型的特点开始逐渐显现。
DeepSeek和Gemini最有高光。
Grok和千问更像“比分型选手”。
ChatGPT和Claude则更像“分析型选手”。
所以,与其急着问哪个模型最懂球,不如先想想:你到底需要什么?