连续完成五源、峰瑞两轮数千万元融资,清华00后团队要解决Token账单焦虑
AI浪潮正在经历一个微妙的转折点。一方面是模型能力的快速迭代,另一方面是Token成本的持续下降。但真正的瓶颈,其实藏在硬件端——如何让大模型在本地设备上流畅运行,而不是永远依赖云端?这篇文章不讲大道理,聊一聊最近拿到融资的一个案例——万格智元。
万格智元团队有几个很鲜明的标签:00后、博士团队、埋头搞技术。CEO王冠博恰好占全了,清华计算机系博士在读,还是一位连续创业者。团队规模不大,约20人,近90%是00后,绝大多数来自清华、北大等院校的硕博生,也有亚马逊、OpenAI、字节跳动等公司的前员工。
《智能涌现》独家获悉,万格智元近日连续完成两轮融资,投资方包括五源资本、峰瑞资本,金额达数千万元软妹币,源合资本担任独家财务顾问。这笔钱将主要用于产品研发和市场推广。
过去,算力上云几乎是必选项。但随着Claude Code、Codex、OpenClaw等Agent能力的爆发,Token需求开始呈指数级增长。王冠博坦言,市面上的所有推理引擎,其实都不太适合端侧——它们大多只盯着速度提升,却忽略了内存的巨大消耗。
问题很现实:端侧芯片厂商推出的内存大多不会超过32GB,而内存过大会直接限制使用场景。厂商的核心诉求是,在现有内存条件下,让自家芯片推理更快、能搭载的模型更大,同时不增加硬件成本。基于此,万格智元给出的方案是端侧算力引擎cPilot+智能平台Amis,目标很明确——让用户用上便宜好用的Token。
具体来说,在成本方面,让小内存机器能跑起大模型,大幅降低部署模型所需的硬件成本;在性能方面,瞄准端侧大模型而非小模型,提供能真正解决用户需求的本地部署方案。用王冠博的话说,“在相同内存开销下,有些方案靠牺牲速度、精度等条件硬跑模型。相比之下,我们的端侧推理方案速度至少快了12倍。”
2025年,他们几乎花了一整年时间做产品与各厂商芯片的适配。彼时,C端对端侧智能的需求还不强烈。直到今年,OpenClaw等Agent工具爆火,才让他们看到了To C的可能性。
目前,万格智元的主要客户是B端芯片厂商,合作开发终端硬件,为AI mini PC、AI PC或AI NAS等产品装上他们的端侧算力引擎及本地自研产品,并提供一套端侧算力优化方案,预装能一键部署模型、聚合API的平台,满足C端客户对大模型本地化部署的需求。商业模式现阶段以B端为主,并通过B to C的实践逐步验证C端路径。多款硬件合作已进入交付阶段,预计今年将有数万台设备预装出货,公司预期营收超千万元。
不做端侧小模型
大模型市场的价格战打得火热。DeepSeek刚宣布V4-Pro的API价格直降75%,雷军也宣布MiMo V2.5系列最高降幅达99%。这背后是一个共识:AI开始真正进入生产力场景,用户希望低成本用上好模型的需求越来越大。
万格智元的思路与之一致。他们瞄准端侧硬件的能力,让用户在本地就能用上大参数模型,从根源上解决成本问题——除了硬件成本外,模型本地部署后Token成本为零。他们从一开始就定下两个原则:不做端侧小模型,因为小模型市场不够大、不够通用;不做后训练,因为云端模型一旦迭代,知识信息会被直接覆盖。
基于这个思路,他们推出了端侧AI推理引擎cPilot。这是一个面向底层生态的引擎,介于底层硬件和上层软件之间,通过自研算法最大程度压缩模型运行的内存占用,激发底层硬件的能力。
一个直观的对比:通常32GB内存的硬件只能留出8至10GB用于模型推理,本地仅能部署约4B参数大小的模型。而同样的配置下,基于cPilot,端侧能部署的模型参数可以从4B提升至80B。以某硬件厂商客户为例,使用cPilot方案后,每台机器的硬件成本能省下约2000元,同时能部署的模型参数还能提升数倍。
当然,本地部署并非万能。端侧能力始终有限,用户需求也在变化——随着模型能力越来越强,大家不再盲目追求参数大小,而是按需调用合适的模型。基于此,万格智元近期还推出了端侧智能平台Amis,能接入主流Agent工具和模型,也能让用户用上云端算力。
Amis的作用类似一个API聚合平台和调度中枢。用户可以直接在上面使用OpenClaw、Hemers等Agent工具,灵活接入、切换不同模型,平台还能对云端和本地算力自动分配,根据任务复杂程度等因素进行切换。
好处在于,用户的需求大多是轻量高频且消耗Token的任务,这些在本地即可完成,仅少部分复杂的需上云。用户无需为其他模型厂商付费,直接在Amis上配置模型,通过端云调度,大部分简单任务本地完成,实现0 Token消耗,仅10%-20%的任务上云,成本大幅压缩。王冠博说,他们希望切入泛C端应用场景,Amis的最终目标是让用户养成使用平台的生态习惯。
MoE已经够稀疏了,但还有十倍下降空间
在王冠博看来,如果大家都是都能看明白的市场,那一定不是初创公司的机会。创业之初,在MoE(混合专家模型)还没那么火的时候,他们选择先为端侧的Dense(稠密模型)架构做优化。当时不少人觉得开源模型能力有限,质疑这个阶段做端侧智能是不是太早了。王冠博的选择是,大胆去赌用户需求和行业趋势的不确定性。
这包括三件事:一是模型能力——用户会不会只需要“够用”的模型,而非完全追求极致质量;二是硬件成本——这是他们决定攻克的核心壁垒;三是Token用量会不会爆发式增长。围绕这三个锚点,他们从优化硬件能力、降低模型运行内存切入,在底层硬件、中间层和算法软件上分别做了全栈优化。
从软件和算法层面看,无论是Dense还是MoE,推理时都只有局部参数被激活。即便是MoE这种已经利用稀疏结构的模型,仍有约10倍稀疏度的下降空间。基于此,万格智元设计了一套“动态稀疏化激活算法”,能准确预判推理过程中模型应该计算和加载哪一部分参数,从而大幅降低实际参数量。
从端侧硬件层面看,内存、CPU访存、CPU-GPU交互三大带宽影响着整体性能。面对这三大限制,他们建立起一套类似CUDA的调度体系,把硬件层打造成端侧大模型推理平台和内存管理系统,还适配了不同厂商的芯片。
测试结果很能说明问题:在一台搭载AMD芯片的机器上运行一个35B参数的大模型,内存占用为27.6GB;而使用cPilot引擎后,同样条件下内存占用可以压缩到4.7GB。这意味着,不到5GB的内存,用户就能用上Qwen3.6、Gemma 4等具备Coding和复杂任务处理能力的大模型。
AI的下半场在端侧
“过去,端侧其实不被大家看好,”王冠博说,“不过不少投资人和我们聊到,今年整个投资赛道慢慢形成了一个共识——端侧可能会是未来。”相比之下,Agent能力和Token需求爆发式增长,厂商下调Token价格几乎是杯水车薪。
万格智元希望端侧成为下一个计算范式,让用户从“租赁智能”变成“拥有智能”。长期来看,他们认为未来的Token使用类似于现在的WiFi——所有硬件都拥有本地自产Token的能力,将云端能力全部搬至端侧,端侧的每一台设备都能定点服务周边所有网络。
目前,万格智元提供的服务仍聚焦于做软件和硬件之间的中间层。不过王冠博表示,这只是第一阶段。到了下一阶段,他们可能会考虑自研端侧AI硬件。“现在还没有到特别适合做硬件的阶段。”一方面,芯片技术尚未收敛——目前的GPU适合模型训练,但不适合高效推理,现在下场反而会把形态固定化,导致后期迭代成本较高。下一代芯片,比如国产NPU,或许会带来一次大变革。另一方面,做硬件不完全依靠技术和工程化能力,更关键的是供应链能力。“如果是做硬件,我们需要提前10个月左右布局,打通上下游供应链和市场销售。和B to C的客户合作,也能率先抢占生态位。”
“AI浪潮在明年会逐渐退去,这个‘退’不是指退场,而是把浪打在了端侧。”下一阶段的端侧,会出现一个能承载住Token爆发的应用,而他们要做的,是为这些应用提供更下游的服务。从长期来看,他们希望把cPilot和Amis打造成低内存赛道上最完善、跨平台适用、用户能开箱即用的平台。

