首页 > 教程攻略 > ai资讯 >苹果渴求的端侧AI杀出黑马:首个认知模型诞生,4B打平GPT-5.4

苹果渴求的端侧AI杀出黑马:首个认知模型诞生,4B打平GPT-5.4

来源:互联网 时间:2026-06-10 14:25:19
在刚过去的 WWDC 上,苹果 Siri 借着 AI 的风口迎来新生,“端侧模型”这个概念再次被推到聚光灯下。更早之前,Andrej Karpathy 曾抛出一个大胆的设想:把模型里那些海量的知识剥离出去,只留下一个能思考、会规划、清楚自己边界在哪儿的“认知核心”。当时就有人在琢磨,这事儿真的能落地吗? 结果,一家中国公司还真就把这个方向给走通了。一个 4B 参数的模型,在群体智能任务中,愣是打出了千亿级大模型的效果,而且直接支持端侧部署。这事儿的信号意义,可能比我们想的要深远得多。 昨晚,Siri 借谷歌那个 1.2 万亿参数的 Gemini 重获新生,话题度拉满。但另一边,亚马逊却悄悄关掉了内部那个曾引发巨大争议的 AI 排行榜——原因很简单,员工们用 AI 用得太过火热,算力账单飙升到管理层都坐不住了。 你看,这才是 AI 大规模落地时,最真实也最残酷的一面:Token 成本,成了那道绕不过去的硬门槛。 Karpathy 在那次访谈中其实已经点破了方向。他主张把模型当成一个“思考的引擎”,而不是一个“记忆的硬盘”。他描述的核心是——一个被剥离了海量事实知识,但保留了思考算法、智能魔力以及问题解决策略的实体。他判断,哪怕只有十亿参数,也能实现高效的类人思考:它会像人类一样,知道自己不知道什么,遇到事实性问题,它会主动去查。 这段话在技术圈引起了不小的讨论。方向上的共识在逐渐形成,但真正能把“认知核心”从概念推到可部署产品的团队,才是这场变革的关键变量。 那么,把 Karpathy 的构想变成现实的,到底是谁? 它的名字叫新程 Alpha,来自明日新程(Nextie)。这家公司的做法很有意思:他们对开源推理模型进行强化学习训练,核心目标是把知识与认知解耦——剥离掉那些记忆性的知识储备,转而全力强化泛化和抽象思考能力。最终产出的模型参数规模只有 4B,但已经被定义为行业首个“认知模型”。 具体的训练起点也颇为独特。团队整理了从 1800 年到 2020 年、跨越 220 年的人类学术论文,试图梳理出群体智能的演化脉络。在这套研究的基础上对模型进行强化学习,专注于提升泛化和抽象能力。一个直观的例子:经过训练后,模型能将围棋选手的决策模式迁移到日常生活场景中——这正是 Karpathy 所说的“保留思考算法”,在现实中有了具体的技术实现。 效果层面,新程 Alpha 在群体智能任务(如辩论、反思、挑战、投票等环节)中,用 4B 参数达到了与 GPT-5.4 等千亿级大模型等效的输出质量,而算力消耗和推理速度的优势则更为明显。 更值得关注的,是这个模型解锁的场景空间,它有三层递进的意义。 **第一层,多智能体决策质量的提升。** 在 Harness 决策框架中,使用认知模型的输出效果显著优于传统推理模型。当底层模型从“推理”升级为“认知”,带来的就是整个多智能体协作系统中决策链条质量的跃升。 **第二层,算力成本的量级缩减。** 4B 参数相较于千亿参数模型,云端部署的算力开销大幅降低。同时,新程 Alpha 还支持端侧部署——无论是 MacBook 还是具身智能设备都能直接运行,算力成本几乎被转化为单纯的电力成本。这对具身智能领域尤为关键:如果用一个千亿参数大模型去驱动一个家务机器人,每一次“思考”都在消耗大量 Token,综合成本可能比雇小时工还贵。而 4B 端侧部署,从根上改写了这笔账。 **第三层,主动式(Proactive)场景的解锁。** 当前绝大多数 AI 产品都运行在响应式(Reactive)模式下——用户发指令,模型响应。而 Proactive 模式意味着智能体可以自主决策和执行任务,无需等待命令。其商业想象空间远超前者,但过去始终被高昂的算力成本挡在门外。新程 Alpha 支持 24 小时不间断运行且成本可控,让那些曾因太贵而搁置的主动式智能体,终于成为了可能。 说到明日新程这个团队,他们的背景也很有意思。团队由微软小冰创始团队创立,身上贴着“用小参数赢大参数”的标签。此前他们训练的开源模型 rinna(日本小冰)就以 3.6B 参数登顶日本 HuggingFace 排行榜,击败了 65B 参数的 Llama。新程 Alpha 用 4B 打平千亿级大模型,延续的正是同一套技术基因。 明日新程重仓的赛道是 Harness 群体多智能体。这条赛道正在获得头部资本的确认——2026 年 3 月,OpenAI 投资了初创公司 Isara,直接将其估值推至 6.5 亿美元,而 Isara 的研究方向正是多智能体协同与群体智能。在智能深度评测(IDI)中,明日新程的综合表现也显著高于任何单一大模型。 资本验证了赛道价值,评测数据则标定了明日新程在其中的位置。两个信号叠加,指向同一个判断:群体多智能体是 AI 应用层的下一个高价值方向,而认知模型,正是驱动它的关键基础设施。 说到底,认知模型改变的远不止是参数本身,更是一本全新的经济账。GPU 成本营收比,是所有 AI 公司头顶的达摩克利斯之剑。而认知模型提供的解法,核心正是经济模型的重构——用 4B 达到千亿级的效果,意味着同样的输出质量背后,对应着一套完全不同的成本结构。 明日新程在采访中透露,团队正在训练泛化能力更强的 8B 认知模型。如果 4B 已经能在群体智能任务中对标 GPT-5.4,那么 8B 的能力边界,确实值得期待。 一个更深远的问题,正摆在所有行业玩家面前:当端侧全天候运行一个认知模型的成本降至可忽略的水平,今天所有基于“用户发指令、模型响应”这种响应式模式设计的 AI 产品,或许都到了需要重新审视自己产品形态的时刻。毕竟,主动式智能体的商业想象空间,远超当前响应式智能体下的一切。