首页 > 教程攻略 > ai资讯 >苹果渴求的端侧AI杀出黑马：首个认知模型诞生，4B打平GPT-5.4

苹果渴求的端侧AI杀出黑马：首个认知模型诞生，4B打平GPT-5.4

来源：互联网时间：2026-06-10 14:25:19

在刚过去的 WWDC 上，苹果 Siri 借着 AI 的风口迎来新生，“端侧模型”这个概念再次被推到聚光灯下。更早之前，Andrej Karpathy 曾抛出一个大胆的设想：把模型里那些海量的知识剥离出去，只留下一个能思考、会规划、清楚自己边界在哪儿的“认知核心”。当时就有人在琢磨，这事儿真的能落地吗？结果，一家中国公司还真就把这个方向给走通了。一个 4B 参数的模型，在群体智能任务中，愣是打出了千亿级大模型的效果，而且直接支持端侧部署。这事儿的信号意义，可能比我们想的要深远得多。昨晚，Siri 借谷歌那个 1.2 万亿参数的 Gemini 重获新生，话题度拉满。但另一边，亚马逊却悄悄关掉了内部那个曾引发巨大争议的 AI 排行榜——原因很简单，员工们用 AI 用得太过火热，算力账单飙升到管理层都坐不住了。你看，这才是 AI 大规模落地时，最真实也最残酷的一面：Token 成本，成了那道绕不过去的硬门槛。 Karpathy 在那次访谈中其实已经点破了方向。他主张把模型当成一个“思考的引擎”，而不是一个“记忆的硬盘”。他描述的核心是——一个被剥离了海量事实知识，但保留了思考算法、智能魔力以及问题解决策略的实体。他判断，哪怕只有十亿参数，也能实现高效的类人思考：它会像人类一样，知道自己不知道什么，遇到事实性问题，它会主动去查。这段话在技术圈引起了不小的讨论。方向上的共识在逐渐形成，但真正能把“认知核心”从概念推到可部署产品的团队，才是这场变革的关键变量。

那么，把 Karpathy 的构想变成现实的，到底是谁？它的名字叫新程 Alpha，来自明日新程（Nextie）。这家公司的做法很有意思：他们对开源推理模型进行强化学习训练，核心目标是把知识与认知解耦——剥离掉那些记忆性的知识储备，转而全力强化泛化和抽象思考能力。最终产出的模型参数规模只有 4B，但已经被定义为行业首个“认知模型”。具体的训练起点也颇为独特。团队整理了从 1800 年到 2020 年、跨越 220 年的人类学术论文，试图梳理出群体智能的演化脉络。在这套研究的基础上对模型进行强化学习，专注于提升泛化和抽象能力。一个直观的例子：经过训练后，模型能将围棋选手的决策模式迁移到日常生活场景中——这正是 Karpathy 所说的“保留思考算法”，在现实中有了具体的技术实现。效果层面，新程 Alpha 在群体智能任务（如辩论、反思、挑战、投票等环节）中，用 4B 参数达到了与 GPT-5.4 等千亿级大模型等效的输出质量，而算力消耗和推理速度的优势则更为明显。

更值得关注的，是这个模型解锁的场景空间，它有三层递进的意义。 **第一层，多智能体决策质量的提升。** 在 Harness 决策框架中，使用认知模型的输出效果显著优于传统推理模型。当底层模型从“推理”升级为“认知”，带来的就是整个多智能体协作系统中决策链条质量的跃升。 **第二层，算力成本的量级缩减。** 4B 参数相较于千亿参数模型，云端部署的算力开销大幅降低。同时，新程 Alpha 还支持端侧部署——无论是 MacBook 还是具身智能设备都能直接运行，算力成本几乎被转化为单纯的电力成本。这对具身智能领域尤为关键：如果用一个千亿参数大模型去驱动一个家务机器人，每一次“思考”都在消耗大量 Token，综合成本可能比雇小时工还贵。而 4B 端侧部署，从根上改写了这笔账。 **第三层，主动式（Proactive）场景的解锁。** 当前绝大多数 AI 产品都运行在响应式（Reactive）模式下——用户发指令，模型响应。而 Proactive 模式意味着智能体可以自主决策和执行任务，无需等待命令。其商业想象空间远超前者，但过去始终被高昂的算力成本挡在门外。新程 Alpha 支持 24 小时不间断运行且成本可控，让那些曾因太贵而搁置的主动式智能体，终于成为了可能。

说到明日新程这个团队，他们的背景也很有意思。团队由微软小冰创始团队创立，身上贴着“用小参数赢大参数”的标签。此前他们训练的开源模型 rinna（日本小冰）就以 3.6B 参数登顶日本 HuggingFace 排行榜，击败了 65B 参数的 Llama。新程 Alpha 用 4B 打平千亿级大模型，延续的正是同一套技术基因。

明日新程重仓的赛道是 Harness 群体多智能体。这条赛道正在获得头部资本的确认——2026 年 3 月，OpenAI 投资了初创公司 Isara，直接将其估值推至 6.5 亿美元，而 Isara 的研究方向正是多智能体协同与群体智能。在智能深度评测（IDI）中，明日新程的综合表现也显著高于任何单一大模型。

资本验证了赛道价值，评测数据则标定了明日新程在其中的位置。两个信号叠加，指向同一个判断：群体多智能体是 AI 应用层的下一个高价值方向，而认知模型，正是驱动它的关键基础设施。

说到底，认知模型改变的远不止是参数本身，更是一本全新的经济账。GPU 成本营收比，是所有 AI 公司头顶的达摩克利斯之剑。而认知模型提供的解法，核心正是经济模型的重构——用 4B 达到千亿级的效果，意味着同样的输出质量背后，对应着一套完全不同的成本结构。明日新程在采访中透露，团队正在训练泛化能力更强的 8B 认知模型。如果 4B 已经能在群体智能任务中对标 GPT-5.4，那么 8B 的能力边界，确实值得期待。一个更深远的问题，正摆在所有行业玩家面前：当端侧全天候运行一个认知模型的成本降至可忽略的水平，今天所有基于“用户发指令、模型响应”这种响应式模式设计的 AI 产品，或许都到了需要重新审视自己产品形态的时刻。毕竟，主动式智能体的商业想象空间，远超当前响应式智能体下的一切。

苹果渴求的端侧AI杀出黑马：首个认知模型诞生，4B打平GPT-5.4

相关阅读

相关下载