AI公司集体"抄作业"：白菜价训练"小模型"时代来了？

来源：互联网时间：2026-05-27 12:44:09

打造一家人工智能公司要花多少钱？这个数字正以前所未有的速度缩水。大语言模型的研发成本持续探底，一个由“模型蒸馏”技术驱动的、近乎“白菜价”的训练时代，似乎正在叩门。

这无疑是开发者的狂欢，但硬币的另一面，寒意也在悄然蔓延。当训练成本降至历史低点，那些在基础模型上投入了天文数字的科技巨头们，该如何向市场解释其高昂投资的合理性？一场由成本重构引发的行业变局，已然拉开序幕。

蒸馏技术：让“小模型”也能“抄作业”

这一切的核心，是一项名为“知识蒸馏”的技术。简单来说，它就像让一个“学霸”（教师模型）把自己的解题思路和答案，手把手教给一个“学生”（学生模型）。学生模型通过模仿学霸的思维过程，能在参数规模小得多的情况下，达到接近甚至超越老师的性能。

最近几个轰动业界的案例，都与此息息相关。传闻中国公司深度求索（DeepSeek）仅用约500万美元，就训练出了能与OpenAI一较高下的模型，一度引发市场对芯片需求萎缩的担忧。更极端的例子来自学术界：加州大学伯克利分校的研究团队在今年1月宣布，用不到1000美元的算力成本训练出了两个新模型；紧接着在2月，斯坦福大学等机构的研究人员更进一步，以更低的成本训练出了可用的推理模型。

这些突破并非偶然，其背后正是蒸馏技术，通常与微调技术结合使用。这种组合能以极低的成本，在训练阶段显著提升模型性能，尤其擅长为通用模型注入特定专长。例如，你可以将Meta的Llama模型，蒸馏成一个精通美国税法的专家系统；或者，利用DeepSeek强大的R1推理模型作为“教师”，去提升其他小模型的逻辑推理能力，让它们也能逐步展示思考过程。

正如美国半导体分析机构SemiAnalysis在一份报告中所指出的：“R1模型最有趣的部分，或许在于它能用其推理输出去微调其他非推理模型，从而赋予它们推理能力。”

低成本与高性能：鱼与熊掌可以兼得

蒸馏技术的魅力，远不止于便宜。它还能解决大模型部署的难题。像DeepSeek全尺寸模型或Llama的最大版本，体积庞大，只能在特定高端硬件上运行。而经过蒸馏的模型，体积更小、参数更少、内存占用低，甚至可以直接在手机或边缘设备上跑起来。图灵资本合伙人萨米尔·库马尔点明了其价值：“它们甚至可以在手机或边缘设备上运行。”

更关键的是，DeepSeek的实践证明了，经过蒸馏的模型性能并未因“瘦身”而打折，反而有所提升。这彻底打破了“规模即性能”的旧有认知，让高效能的小模型成为可能。

老技术的新生：从被拒稿到行业核心

有趣的是，蒸馏并非一项新技术。它最早可追溯到2015年，由谷歌的几位AI元老（杰夫·迪恩、杰弗里·辛顿和奥里奥尔·维尼亚尔斯）在一篇论文中提出。据维尼亚尔斯近期透露，这篇论文当时甚至被顶级会议NeurIPS拒稿，理由是“对领域影响有限”。

十年后，形势彻底逆转。蒸馏技术为何在今天爆发出如此巨大的能量？核心原因在于，可供选择的“教师”模型在数量和质量上都实现了飞跃。特别是高质量开源模型的涌现，如DeepSeek以宽松的MIT协议开源其强大模型，极大地降低了蒸馏的门槛。IBM的LLM Granite技术管理总监凯特·索尔对此评价道：“这实质上正在侵蚀各大厂商守护其核心模型的紧闭大门。”

如今，在开源模型库Hugging Face上，以“distill”命名的模型约有3万个，它们大多是Meta Llama、阿里巴巴Qwen等知名模型的蒸馏版本。这就像AI界的“一元店”，提供了顶尖的性价比。

技术的边界与挑战

当然，蒸馏技术并非万能。它也存在明显的边界。一个专精于某项任务（如税法）的蒸馏模型，在其他领域的表现可能会弱化。目前，也尚未有蒸馏模型能冲上Hugging Face排行榜的顶端。

苹果公司的研究人员曾尝试构建“蒸馏扩展定律”，以预测蒸馏效果。他们发现，当使用高质量的教师模型时，蒸馏效果可以超越传统方法；但若教师模型过大，性能提升则会陷入停滞。这说明，蒸馏并非简单的“越大越好”。

尽管如此，其意义依然重大。它极大地缩短了从AI概念到产品原型的距离，普遍降低了创业门槛。多位AI专家强调，这条“捷径”虽然无法否定昂贵基础模型的必要性，但它确实动摇了那些仅靠售卖基础模型API的厂商的盈利根基。

巨头的反击：基础模型的出路何在？

面对蒸馏技术的“威胁”，基础模型公司并非坐以待毙。英伟达CEO黄仁勋在最新财报会后坦言：“如今全球几乎所有AI开发者都在使用DeepSeek的R1来蒸馏新模型。”这既点明了现状，也预示着对抗。

云平台Hyperbolic联合创始人张杰认为，基础预训练模型的能力正在逼近天花板，未来会越来越同质化。巨头的出路，在于打造受欢迎的产品，而非仅仅售卖模型能力。这也部分解释了为何Meta会选择将Llama模型部分开源——生态比闭门造车更重要。

此外，更激进的技术防御策略也被提出。有匿名的谷歌DeepMind研究员表示，具备推理能力的模型可以通过隐藏其推理步骤或“痕迹”来防止被蒸馏。OpenAI似乎就在实践这种策略：其大型o1模型隐藏了完整推理路径，而新发布的o3-mini则展示了这些信息。前特朗普政府AI顾问戴维·萨克斯预测：“未来几个月，头部人工智能公司将围剿蒸馏技术。”

然而，在开源AI这片“狂野西部”，想要完全遏制技术扩散谈何容易。IBM的凯特·索尔直言不讳地指出：“Hugging Face上充斥着大量由GPT模型生成的、未经授权的格式化训练数据集。这早已经是公开的秘密。”

一场关于AI模型所有权、价值与可及性的攻防战，已经打响。成本的下探，正在重塑整个行业的权力结构。当训练模型变得像“抄作业”一样便宜时，真正的竞争，或许才刚刚开始。

AI公司集体"抄作业"：白菜价训练"小模型"时代来了？

蒸馏技术：让“小模型”也能“抄作业”

低成本与高性能：鱼与熊掌可以兼得

老技术的新生：从被拒稿到行业核心

技术的边界与挑战

巨头的反击：基础模型的出路何在？

相关阅读

相关下载