“文科生”微博,搞出一个数学学霸大模型
图 | VibeThinker在测试集中的得分,源自张俊林微博
需要先说明一点:VibeThinker的分数并不是行业中最高的,关键要看相对体量。张俊林把通过这三项数学测试的大模型,按能力分成了三档。
以AIME2025为例,目前最高分是95分。第一档是平均90分以上的选手,基本都是参数量超过1000亿甚至接近万亿的庞然大物,比如智谱的GLM-4.6(3550亿参数)、Kimi-K2 thinking(10000亿参数)、GPT5、Gemini 3.0 Pro。这些模型体量决定了它们的上限。

图 | AIME2025数学测试集
第二档平均88分,代表选手是Gemini2.5 Pro和OpenAI的O4系列。而VibeThinker在AIME2025上得了74.4分,和前两档确实有差距——但注意,它的参数量只有15亿,是榜单上最小的模型。
在这个第三档圈子里,年初发布的DeepSeek-R1得了70分,但参数高达6850亿,是VibeThinker的几百倍。VibeThinker的分数也接近参数4560亿的MiniMax-M1。换句话说,微博用15亿参数的小模型,在数学领域硬是挤进了大模型的牌桌,刷新了人们对“小模型智能极限”的认知。

图 | HMMT2025数学测试集
张俊林打了个比方:“大模型分文科智能和理科智能。文科智能看写文章有没有文采,理科智能看数学推理能力。数学能力是推理能力的重要基础,就像‘学好数理化,走遍天下都不怕’。” 理科智能高,训练成本却低得惊人——VibeThinker的后训练成本仅7800美元,比DeepSeek-R1低了大约40倍。
截至新华社7月数据,中国已发布1509个大模型。VibeThinker至少在数学测试子集中,凭“以小博大”的成绩占据了一席之地。微博,这个正在用AI改造自身基因的平台,继知微大模型之后,终于有了第二张辨识度高的AI名片。
但张俊林也提醒:“VibeThinker目前的能力局限在数学和竞赛编程推理,没有用聊天数据调整,暂时不适合日常对话,还需要进一步训练。”
攻坚
74.4分是怎么打出来的?张俊林的回答很直白:从4分一点一点往上提的。
作为行业里的“轻量级选手”,VibeThinker挑战高难度推理并不被看好。行业共识是:复杂推理能力需要1000亿以上参数才能涌现,10亿左右的小模型通常“天生不足”,处理不了高难度问题。
但偏偏这个“不可能”,成了张俊林愿意在微博待多年的原因。他当初做自然语言处理和检索出身,看中微博两点:一是社交数据丰富且开放,这是战略资源;二是公司愿意给“新课题探索空间”。
项目启动后,研发难度呈现“先易后难”的走势。团队先用阿里千问大模型做了一个基础模型——好比拿到一块原生矿石,接下来要雕琢加工,通过“后训练”(微调、对齐)炼出自己的青铜器。
用这个基础模型在AIME2025部分子集测试,得分只有4分多。接下来的任务就是训练它,提高解题和推理能力。
从4分提到50分相对容易,团队用的是改进版GRPO强化学习算法。GRPO全称是Group Relative Policy Optimization(分组相对策略优化),此前行业主流是RLHF(人类反馈强化学习)。两种机制差异明显:RLHF相当于雇一个考官,训练一个奖励模型,按标准答案给每一步打分,但成本高、训练不稳定;GRPO则让模型自己跟自己比,内生驱动,成本低、训练稳定、效果也好。
借助GRPO,VibeThinker很快从4分冲到50多分,但之后的路越来越难。“每攀1分都变得困难,有时候就像卡在楼梯上,不知道怎样才能突破。”张俊林说。
做AI基础研究和做应用不一样——应用追求效果的确定性,基础研究充满不确定性。没人知道15亿参数的小模型,智能上限到底在哪。“是50分就到头了,还是能更高?”每一个分数节点,考验的都是工程师的判断力:继续往上爬,还是停在这一层?
张俊林的做法,像极了给高考生补数学。他每天提早一两个小时到办公室,大约8点,通过阅读行业最新论文获取“外援”。AI行业每日论文上千篇,其中深度推理相关论文从七八十篇到三百多篇不等。他阅读速度极快,先看标题和摘要筛选,但发现99%以上的论文对解决实际问题没有直接帮助。
于是只能用最朴素的方法——试错。张俊林管这叫“自我改进”:尝试多种训练方法,一分一分地争取。有点像数学高考冲刺:从50分冲到100分,方法相对可控;但从100分冲到110分,就需要从普适经验转向个人创新。
在这个过程中,团队提出了一个叫“频谱到信号原理”(SSP)的方法。行业内虽有类似提法,但没有专门论文论述,真正把原理落地实操的,就是VibeThinker。正是借助这个方法,15亿参数的小模型战胜了数百倍体量的“巨人”。
这个方法的核心理念,是重新思考和定义SFT(监督微调)和RL(强化学习)两步训练的关系。行业通行做法是SFT在前、RL在后,两者目标都是优化第一个回答的准确率(Pass@1)。但张俊林认为,这样两者优化目标雷同,SFT本身缺乏探索性,后续RL的探索空间被严重压缩,阻碍效果。
他的做法是让SFT配合RL,优先优化模型的一题多解能力(Pass@K),先把解决问题的多样性做出来,为RL打开探索空间。这就好比推荐系统里的“召回+排序”两阶段流程:召回负责多样性,排序负责精准性——频谱到信号原理的精髓。
打比方来说,训练学生解题,先注重提升他的解题思维和方法,再实现正确率的提高——先锻炼思维,再追求结果。团队实操发现,这种方法确实能提升小模型的训练效果。VibeThinker在AIME2025的得分,从50多分一点一点提升到74.4分。
其实,通过模型训练方法的创新来实现降本增效,已经是行业共识,比如“知识蒸馏”就是战术级创新。而微博团队的“频谱到信号原理”,相当于给行业贡献了一套新的选择方案——改变传统模型训练单纯靠堆算力、堆参数、烧钱的惯性依赖。
VibeThinker的科研成果以合适方式向海内外业界进行了详细说明,在海外引发广泛关注,许多权威科技媒体前来报道。张俊林远在美国Meta的朋友也打来电话,希望用这个方法复刻相关模型。

图 | VibeThinker大模型的推出,在海外也引发广泛关注
应用
VibeThinker的实践,推翻了行业固有结论——小模型难以具备高度推理能力。而且它开源得十分彻底。“这有助于微博平台继续生成各类AI应用,也能让技术红利外溢给其他主体,尤其是中小企业,完全可以在VibeThinker基础上进行再开发,服务自己的业务。”张俊林说。
实际上,VibeThinker的诞生并非天马行空的前沿探索,而是源自一个非常实际的应用需求——评论罗伯特。
评论罗伯特是微博2023年7月上线的AI机器人,活跃在评论区。它最初基于微博自研的闭源大模型“知微大模型”,深度学习微博用户的帖子,生成评论与用户互动。刚上线时,它以横冲直撞的魔童风格,一度成为社交话题。

图 | 评论罗伯特,微博用户大多遇到过
评论罗伯特并非公司自上而下的S级项目,而是来自内部“AI创新大赛”——ChatGPT诞生后,微博鼓励员工以2-3人为单位提出AI应用创意。罗伯特是诸多方案之一,没拿到大奖,但公司抱着“试一试”的心态,意外把它变成了产品。
今年6月,罗伯特融合了类似DeepSeek-R1的深度思考能力,以提升回复的逻辑深度和个性化水平。但问题也随之而来:模型规模大,每次深度思考耗时长、成本高。公开报道显示,DeepSeek-R1每次推理激活370亿参数,占总参数量5.5%,虽然已实现降本增效,但依然不便宜。
微博透露,评论罗伯特每天生成约百万条AI评论,且专门挑粉丝数只有几百人的普通用户,追求给情绪低沉的用户以心理抚慰。看似只有“一位罗伯特”在干活,实际背后有六七个Agent分工协作:有的专门遴选用户,有的学习帖子内容(包括图片),有的生成评论。评论风格也分成多个Agent,有的负责娱乐线,有的负责科技线,有的走犀利派,有的走温情派。
张俊林恰好也是评论罗伯特项目的负责人。因应项目需求,开发一款参数更小、成本更低但智能水平依旧出色的模型,成了最直接的需求。这才有了VibeThinker,也才有了团队为期三个月的“数学能力攻坚战”。
回想这三个月,张俊林坦言,“脑袋转不动、情绪低沉”的时刻常有。但面对万般困难,核心开发者的解题思路朴素得出奇:“遇到问题、头脑风暴、思考解决方案、试错,此路不通换一条,大家彼此用理性说服。” 本质上,这就是AI研发工程师们被数学牵引的思维之光。
目前,微博平台内已形成开源模型与知微大模型的“双模型引擎”。开源模型还负责另一款广受欢迎的AI应用——微博智搜,它与评论罗伯特一起成为微博AI的两块看板,进一步激活了平台生态。
接下来,团队会基于VibeThinker探索出的技术,一方面融入微博领域数据提升现有AI应用效果,一方面减少模型参数大幅节省成本。同时继续训练VibeThinker,摸索在其他方面提升智能的方法。也欢迎平台外主体活用成果,对自身业务进行降本增效与赋能。
最后,张俊林用一句话总结了小模型的未来:“从罗伯特中来,到罗伯特们中去。” 就像那句老话——从群众中来,到群众中去。AI用起来方便、便宜、能成事,才是最关键的。