首页 > 教程攻略 > ai教程 >“文科生”微博，搞出一个数学学霸大模型

“文科生”微博，搞出一个数学学霸大模型

来源：互联网时间：2026-06-19 07:18:35

图 | VibeThinker在测试集中的得分，源自张俊林微博

需要先说明一点：VibeThinker的分数并不是行业中最高的，关键要看相对体量。张俊林把通过这三项数学测试的大模型，按能力分成了三档。

以AIME2025为例，目前最高分是95分。第一档是平均90分以上的选手，基本都是参数量超过1000亿甚至接近万亿的庞然大物，比如智谱的GLM-4.6（3550亿参数）、Kimi-K2 thinking（10000亿参数）、GPT5、Gemini 3.0 Pro。这些模型体量决定了它们的上限。

图 | AIME2025数学测试集

第二档平均88分，代表选手是Gemini2.5 Pro和OpenAI的O4系列。而VibeThinker在AIME2025上得了74.4分，和前两档确实有差距——但注意，它的参数量只有15亿，是榜单上最小的模型。

在这个第三档圈子里，年初发布的DeepSeek-R1得了70分，但参数高达6850亿，是VibeThinker的几百倍。VibeThinker的分数也接近参数4560亿的MiniMax-M1。换句话说，微博用15亿参数的小模型，在数学领域硬是挤进了大模型的牌桌，刷新了人们对“小模型智能极限”的认知。

图 | HMMT2025数学测试集

张俊林打了个比方：“大模型分文科智能和理科智能。文科智能看写文章有没有文采，理科智能看数学推理能力。数学能力是推理能力的重要基础，就像‘学好数理化，走遍天下都不怕’。” 理科智能高，训练成本却低得惊人——VibeThinker的后训练成本仅7800美元，比DeepSeek-R1低了大约40倍。

截至新华社7月数据，中国已发布1509个大模型。VibeThinker至少在数学测试子集中，凭“以小博大”的成绩占据了一席之地。微博，这个正在用AI改造自身基因的平台，继知微大模型之后，终于有了第二张辨识度高的AI名片。

但张俊林也提醒：“VibeThinker目前的能力局限在数学和竞赛编程推理，没有用聊天数据调整，暂时不适合日常对话，还需要进一步训练。”

攻坚

74.4分是怎么打出来的？张俊林的回答很直白：从4分一点一点往上提的。

作为行业里的“轻量级选手”，VibeThinker挑战高难度推理并不被看好。行业共识是：复杂推理能力需要1000亿以上参数才能涌现，10亿左右的小模型通常“天生不足”，处理不了高难度问题。

但偏偏这个“不可能”，成了张俊林愿意在微博待多年的原因。他当初做自然语言处理和检索出身，看中微博两点：一是社交数据丰富且开放，这是战略资源；二是公司愿意给“新课题探索空间”。

项目启动后，研发难度呈现“先易后难”的走势。团队先用阿里千问大模型做了一个基础模型——好比拿到一块原生矿石，接下来要雕琢加工，通过“后训练”（微调、对齐）炼出自己的青铜器。

用这个基础模型在AIME2025部分子集测试，得分只有4分多。接下来的任务就是训练它，提高解题和推理能力。

从4分提到50分相对容易，团队用的是改进版GRPO强化学习算法。GRPO全称是Group Relative Policy Optimization（分组相对策略优化），此前行业主流是RLHF（人类反馈强化学习）。两种机制差异明显：RLHF相当于雇一个考官，训练一个奖励模型，按标准答案给每一步打分，但成本高、训练不稳定；GRPO则让模型自己跟自己比，内生驱动，成本低、训练稳定、效果也好。

借助GRPO，VibeThinker很快从4分冲到50多分，但之后的路越来越难。“每攀1分都变得困难，有时候就像卡在楼梯上，不知道怎样才能突破。”张俊林说。

做AI基础研究和做应用不一样——应用追求效果的确定性，基础研究充满不确定性。没人知道15亿参数的小模型，智能上限到底在哪。“是50分就到头了，还是能更高？”每一个分数节点，考验的都是工程师的判断力：继续往上爬，还是停在这一层？

张俊林的做法，像极了给高考生补数学。他每天提早一两个小时到办公室，大约8点，通过阅读行业最新论文获取“外援”。AI行业每日论文上千篇，其中深度推理相关论文从七八十篇到三百多篇不等。他阅读速度极快，先看标题和摘要筛选，但发现99%以上的论文对解决实际问题没有直接帮助。

于是只能用最朴素的方法——试错。张俊林管这叫“自我改进”：尝试多种训练方法，一分一分地争取。有点像数学高考冲刺：从50分冲到100分，方法相对可控；但从100分冲到110分，就需要从普适经验转向个人创新。

在这个过程中，团队提出了一个叫“频谱到信号原理”（SSP）的方法。行业内虽有类似提法，但没有专门论文论述，真正把原理落地实操的，就是VibeThinker。正是借助这个方法，15亿参数的小模型战胜了数百倍体量的“巨人”。

这个方法的核心理念，是重新思考和定义SFT（监督微调）和RL（强化学习）两步训练的关系。行业通行做法是SFT在前、RL在后，两者目标都是优化第一个回答的准确率（Pass@1）。但张俊林认为，这样两者优化目标雷同，SFT本身缺乏探索性，后续RL的探索空间被严重压缩，阻碍效果。

他的做法是让SFT配合RL，优先优化模型的一题多解能力（Pass@K），先把解决问题的多样性做出来，为RL打开探索空间。这就好比推荐系统里的“召回+排序”两阶段流程：召回负责多样性，排序负责精准性——频谱到信号原理的精髓。

打比方来说，训练学生解题，先注重提升他的解题思维和方法，再实现正确率的提高——先锻炼思维，再追求结果。团队实操发现，这种方法确实能提升小模型的训练效果。VibeThinker在AIME2025的得分，从50多分一点一点提升到74.4分。

其实，通过模型训练方法的创新来实现降本增效，已经是行业共识，比如“知识蒸馏”就是战术级创新。而微博团队的“频谱到信号原理”，相当于给行业贡献了一套新的选择方案——改变传统模型训练单纯靠堆算力、堆参数、烧钱的惯性依赖。

VibeThinker的科研成果以合适方式向海内外业界进行了详细说明，在海外引发广泛关注，许多权威科技媒体前来报道。张俊林远在美国Meta的朋友也打来电话，希望用这个方法复刻相关模型。

图 | VibeThinker大模型的推出，在海外也引发广泛关注

应用

VibeThinker的实践，推翻了行业固有结论——小模型难以具备高度推理能力。而且它开源得十分彻底。“这有助于微博平台继续生成各类AI应用，也能让技术红利外溢给其他主体，尤其是中小企业，完全可以在VibeThinker基础上进行再开发，服务自己的业务。”张俊林说。

实际上，VibeThinker的诞生并非天马行空的前沿探索，而是源自一个非常实际的应用需求——评论罗伯特。

评论罗伯特是微博2023年7月上线的AI机器人，活跃在评论区。它最初基于微博自研的闭源大模型“知微大模型”，深度学习微博用户的帖子，生成评论与用户互动。刚上线时，它以横冲直撞的魔童风格，一度成为社交话题。

图 | 评论罗伯特，微博用户大多遇到过

评论罗伯特并非公司自上而下的S级项目，而是来自内部“AI创新大赛”——ChatGPT诞生后，微博鼓励员工以2-3人为单位提出AI应用创意。罗伯特是诸多方案之一，没拿到大奖，但公司抱着“试一试”的心态，意外把它变成了产品。

今年6月，罗伯特融合了类似DeepSeek-R1的深度思考能力，以提升回复的逻辑深度和个性化水平。但问题也随之而来：模型规模大，每次深度思考耗时长、成本高。公开报道显示，DeepSeek-R1每次推理激活370亿参数，占总参数量5.5%，虽然已实现降本增效，但依然不便宜。

微博透露，评论罗伯特每天生成约百万条AI评论，且专门挑粉丝数只有几百人的普通用户，追求给情绪低沉的用户以心理抚慰。看似只有“一位罗伯特”在干活，实际背后有六七个Agent分工协作：有的专门遴选用户，有的学习帖子内容（包括图片），有的生成评论。评论风格也分成多个Agent，有的负责娱乐线，有的负责科技线，有的走犀利派，有的走温情派。

张俊林恰好也是评论罗伯特项目的负责人。因应项目需求，开发一款参数更小、成本更低但智能水平依旧出色的模型，成了最直接的需求。这才有了VibeThinker，也才有了团队为期三个月的“数学能力攻坚战”。

回想这三个月，张俊林坦言，“脑袋转不动、情绪低沉”的时刻常有。但面对万般困难，核心开发者的解题思路朴素得出奇：“遇到问题、头脑风暴、思考解决方案、试错，此路不通换一条，大家彼此用理性说服。” 本质上，这就是AI研发工程师们被数学牵引的思维之光。

目前，微博平台内已形成开源模型与知微大模型的“双模型引擎”。开源模型还负责另一款广受欢迎的AI应用——微博智搜，它与评论罗伯特一起成为微博AI的两块看板，进一步激活了平台生态。

接下来，团队会基于VibeThinker探索出的技术，一方面融入微博领域数据提升现有AI应用效果，一方面减少模型参数大幅节省成本。同时继续训练VibeThinker，摸索在其他方面提升智能的方法。也欢迎平台外主体活用成果，对自身业务进行降本增效与赋能。

最后，张俊林用一句话总结了小模型的未来：“从罗伯特中来，到罗伯特们中去。” 就像那句老话——从群众中来，到群众中去。AI用起来方便、便宜、能成事，才是最关键的。

“文科生”微博，搞出一个数学学霸大模型

攻坚

应用

相关阅读

相关下载