AI公司集体"抄作业":白菜价训练"小模型"时代来了?
打造一家人工智能公司要花多少钱?这个数字正以前所未有的速度缩水。大语言模型的研发成本持续探底,一个由“模型蒸馏”技术驱动的、近乎“白菜价”的训练时代,似乎正在叩门。

这无疑是开发者的狂欢,但硬币的另一面,寒意也在悄然蔓延。当训练成本降至历史低点,那些在基础模型上投入了天文数字的科技巨头们,该如何向市场解释其高昂投资的合理性?一场由成本重构引发的行业变局,已然拉开序幕。
蒸馏技术:让“小模型”也能“抄作业”
这一切的核心,是一项名为“知识蒸馏”的技术。简单来说,它就像让一个“学霸”(教师模型)把自己的解题思路和答案,手把手教给一个“学生”(学生模型)。学生模型通过模仿学霸的思维过程,能在参数规模小得多的情况下,达到接近甚至超越老师的性能。
最近几个轰动业界的案例,都与此息息相关。传闻中国公司深度求索(DeepSeek)仅用约500万美元,就训练出了能与OpenAI一较高下的模型,一度引发市场对芯片需求萎缩的担忧。更极端的例子来自学术界:加州大学伯克利分校的研究团队在今年1月宣布,用不到1000美元的算力成本训练出了两个新模型;紧接着在2月,斯坦福大学等机构的研究人员更进一步,以更低的成本训练出了可用的推理模型。
这些突破并非偶然,其背后正是蒸馏技术,通常与微调技术结合使用。这种组合能以极低的成本,在训练阶段显著提升模型性能,尤其擅长为通用模型注入特定专长。例如,你可以将Meta的Llama模型,蒸馏成一个精通美国税法的专家系统;或者,利用DeepSeek强大的R1推理模型作为“教师”,去提升其他小模型的逻辑推理能力,让它们也能逐步展示思考过程。
正如美国半导体分析机构SemiAnalysis在一份报告中所指出的:“R1模型最有趣的部分,或许在于它能用其推理输出去微调其他非推理模型,从而赋予它们推理能力。”
低成本与高性能:鱼与熊掌可以兼得
蒸馏技术的魅力,远不止于便宜。它还能解决大模型部署的难题。像DeepSeek全尺寸模型或Llama的最大版本,体积庞大,只能在特定高端硬件上运行。而经过蒸馏的模型,体积更小、参数更少、内存占用低,甚至可以直接在手机或边缘设备上跑起来。图灵资本合伙人萨米尔·库马尔点明了其价值:“它们甚至可以在手机或边缘设备上运行。”
更关键的是,DeepSeek的实践证明了,经过蒸馏的模型性能并未因“瘦身”而打折,反而有所提升。这彻底打破了“规模即性能”的旧有认知,让高效能的小模型成为可能。
老技术的新生:从被拒稿到行业核心
有趣的是,蒸馏并非一项新技术。它最早可追溯到2015年,由谷歌的几位AI元老(杰夫·迪恩、杰弗里·辛顿和奥里奥尔·维尼亚尔斯)在一篇论文中提出。据维尼亚尔斯近期透露,这篇论文当时甚至被顶级会议NeurIPS拒稿,理由是“对领域影响有限”。
十年后,形势彻底逆转。蒸馏技术为何在今天爆发出如此巨大的能量?核心原因在于,可供选择的“教师”模型在数量和质量上都实现了飞跃。特别是高质量开源模型的涌现,如DeepSeek以宽松的MIT协议开源其强大模型,极大地降低了蒸馏的门槛。IBM的LLM Granite技术管理总监凯特·索尔对此评价道:“这实质上正在侵蚀各大厂商守护其核心模型的紧闭大门。”
如今,在开源模型库Hugging Face上,以“distill”命名的模型约有3万个,它们大多是Meta Llama、阿里巴巴Qwen等知名模型的蒸馏版本。这就像AI界的“一元店”,提供了顶尖的性价比。
技术的边界与挑战
当然,蒸馏技术并非万能。它也存在明显的边界。一个专精于某项任务(如税法)的蒸馏模型,在其他领域的表现可能会弱化。目前,也尚未有蒸馏模型能冲上Hugging Face排行榜的顶端。
苹果公司的研究人员曾尝试构建“蒸馏扩展定律”,以预测蒸馏效果。他们发现,当使用高质量的教师模型时,蒸馏效果可以超越传统方法;但若教师模型过大,性能提升则会陷入停滞。这说明,蒸馏并非简单的“越大越好”。
尽管如此,其意义依然重大。它极大地缩短了从AI概念到产品原型的距离,普遍降低了创业门槛。多位AI专家强调,这条“捷径”虽然无法否定昂贵基础模型的必要性,但它确实动摇了那些仅靠售卖基础模型API的厂商的盈利根基。
巨头的反击:基础模型的出路何在?
面对蒸馏技术的“威胁”,基础模型公司并非坐以待毙。英伟达CEO黄仁勋在最新财报会后坦言:“如今全球几乎所有AI开发者都在使用DeepSeek的R1来蒸馏新模型。”这既点明了现状,也预示着对抗。
云平台Hyperbolic联合创始人张杰认为,基础预训练模型的能力正在逼近天花板,未来会越来越同质化。巨头的出路,在于打造受欢迎的产品,而非仅仅售卖模型能力。这也部分解释了为何Meta会选择将Llama模型部分开源——生态比闭门造车更重要。
此外,更激进的技术防御策略也被提出。有匿名的谷歌DeepMind研究员表示,具备推理能力的模型可以通过隐藏其推理步骤或“痕迹”来防止被蒸馏。OpenAI似乎就在实践这种策略:其大型o1模型隐藏了完整推理路径,而新发布的o3-mini则展示了这些信息。前特朗普政府AI顾问戴维·萨克斯预测:“未来几个月,头部人工智能公司将围剿蒸馏技术。”
然而,在开源AI这片“狂野西部”,想要完全遏制技术扩散谈何容易。IBM的凯特·索尔直言不讳地指出:“Hugging Face上充斥着大量由GPT模型生成的、未经授权的格式化训练数据集。这早已经是公开的秘密。”
一场关于AI模型所有权、价值与可及性的攻防战,已经打响。成本的下探,正在重塑整个行业的权力结构。当训练模型变得像“抄作业”一样便宜时,真正的竞争,或许才刚刚开始。