首页 > 教程攻略 > 热点新闻 >连续完成五源、峰瑞两轮数千万元融资，清华00后团队要解决Token账单焦虑

连续完成五源、峰瑞两轮数千万元融资，清华00后团队要解决Token账单焦虑

来源：互联网时间：2026-06-01 18:23:41

AI浪潮正在经历一个微妙的转折点。一方面是模型能力的快速迭代，另一方面是Token成本的持续下降。但真正的瓶颈，其实藏在硬件端——如何让大模型在本地设备上流畅运行，而不是永远依赖云端？这篇文章不讲大道理，聊一聊最近拿到融资的一个案例——万格智元。

万格智元团队有几个很鲜明的标签：00后、博士团队、埋头搞技术。CEO王冠博恰好占全了，清华计算机系博士在读，还是一位连续创业者。团队规模不大，约20人，近90%是00后，绝大多数来自清华、北大等院校的硕博生，也有亚马逊、OpenAI、字节跳动等公司的前员工。

《智能涌现》独家获悉，万格智元近日连续完成两轮融资，投资方包括五源资本、峰瑞资本，金额达数千万元软妹币，源合资本担任独家财务顾问。这笔钱将主要用于产品研发和市场推广。

过去，算力上云几乎是必选项。但随着Claude Code、Codex、OpenClaw等Agent能力的爆发，Token需求开始呈指数级增长。王冠博坦言，市面上的所有推理引擎，其实都不太适合端侧——它们大多只盯着速度提升，却忽略了内存的巨大消耗。

问题很现实：端侧芯片厂商推出的内存大多不会超过32GB，而内存过大会直接限制使用场景。厂商的核心诉求是，在现有内存条件下，让自家芯片推理更快、能搭载的模型更大，同时不增加硬件成本。基于此，万格智元给出的方案是端侧算力引擎cPilot+智能平台Amis，目标很明确——让用户用上便宜好用的Token。

具体来说，在成本方面，让小内存机器能跑起大模型，大幅降低部署模型所需的硬件成本；在性能方面，瞄准端侧大模型而非小模型，提供能真正解决用户需求的本地部署方案。用王冠博的话说，“在相同内存开销下，有些方案靠牺牲速度、精度等条件硬跑模型。相比之下，我们的端侧推理方案速度至少快了12倍。”

2025年，他们几乎花了一整年时间做产品与各厂商芯片的适配。彼时，C端对端侧智能的需求还不强烈。直到今年，OpenClaw等Agent工具爆火，才让他们看到了To C的可能性。

目前，万格智元的主要客户是B端芯片厂商，合作开发终端硬件，为AI mini PC、AI PC或AI NAS等产品装上他们的端侧算力引擎及本地自研产品，并提供一套端侧算力优化方案，预装能一键部署模型、聚合API的平台，满足C端客户对大模型本地化部署的需求。商业模式现阶段以B端为主，并通过B to C的实践逐步验证C端路径。多款硬件合作已进入交付阶段，预计今年将有数万台设备预装出货，公司预期营收超千万元。

不做端侧小模型

大模型市场的价格战打得火热。DeepSeek刚宣布V4-Pro的API价格直降75%，雷军也宣布MiMo V2.5系列最高降幅达99%。这背后是一个共识：AI开始真正进入生产力场景，用户希望低成本用上好模型的需求越来越大。

万格智元的思路与之一致。他们瞄准端侧硬件的能力，让用户在本地就能用上大参数模型，从根源上解决成本问题——除了硬件成本外，模型本地部署后Token成本为零。他们从一开始就定下两个原则：不做端侧小模型，因为小模型市场不够大、不够通用；不做后训练，因为云端模型一旦迭代，知识信息会被直接覆盖。

基于这个思路，他们推出了端侧AI推理引擎cPilot。这是一个面向底层生态的引擎，介于底层硬件和上层软件之间，通过自研算法最大程度压缩模型运行的内存占用，激发底层硬件的能力。

一个直观的对比：通常32GB内存的硬件只能留出8至10GB用于模型推理，本地仅能部署约4B参数大小的模型。而同样的配置下，基于cPilot，端侧能部署的模型参数可以从4B提升至80B。以某硬件厂商客户为例，使用cPilot方案后，每台机器的硬件成本能省下约2000元，同时能部署的模型参数还能提升数倍。

当然，本地部署并非万能。端侧能力始终有限，用户需求也在变化——随着模型能力越来越强，大家不再盲目追求参数大小，而是按需调用合适的模型。基于此，万格智元近期还推出了端侧智能平台Amis，能接入主流Agent工具和模型，也能让用户用上云端算力。

Amis的作用类似一个API聚合平台和调度中枢。用户可以直接在上面使用OpenClaw、Hemers等Agent工具，灵活接入、切换不同模型，平台还能对云端和本地算力自动分配，根据任务复杂程度等因素进行切换。

好处在于，用户的需求大多是轻量高频且消耗Token的任务，这些在本地即可完成，仅少部分复杂的需上云。用户无需为其他模型厂商付费，直接在Amis上配置模型，通过端云调度，大部分简单任务本地完成，实现0 Token消耗，仅10%-20%的任务上云，成本大幅压缩。王冠博说，他们希望切入泛C端应用场景，Amis的最终目标是让用户养成使用平台的生态习惯。

MoE已经够稀疏了，但还有十倍下降空间

在王冠博看来，如果大家都是都能看明白的市场，那一定不是初创公司的机会。创业之初，在MoE（混合专家模型）还没那么火的时候，他们选择先为端侧的Dense（稠密模型）架构做优化。当时不少人觉得开源模型能力有限，质疑这个阶段做端侧智能是不是太早了。王冠博的选择是，大胆去赌用户需求和行业趋势的不确定性。

这包括三件事：一是模型能力——用户会不会只需要“够用”的模型，而非完全追求极致质量；二是硬件成本——这是他们决定攻克的核心壁垒；三是Token用量会不会爆发式增长。围绕这三个锚点，他们从优化硬件能力、降低模型运行内存切入，在底层硬件、中间层和算法软件上分别做了全栈优化。

从软件和算法层面看，无论是Dense还是MoE，推理时都只有局部参数被激活。即便是MoE这种已经利用稀疏结构的模型，仍有约10倍稀疏度的下降空间。基于此，万格智元设计了一套“动态稀疏化激活算法”，能准确预判推理过程中模型应该计算和加载哪一部分参数，从而大幅降低实际参数量。

从端侧硬件层面看，内存、CPU访存、CPU-GPU交互三大带宽影响着整体性能。面对这三大限制，他们建立起一套类似CUDA的调度体系，把硬件层打造成端侧大模型推理平台和内存管理系统，还适配了不同厂商的芯片。

测试结果很能说明问题：在一台搭载AMD芯片的机器上运行一个35B参数的大模型，内存占用为27.6GB；而使用cPilot引擎后，同样条件下内存占用可以压缩到4.7GB。这意味着，不到5GB的内存，用户就能用上Qwen3.6、Gemma 4等具备Coding和复杂任务处理能力的大模型。

AI的下半场在端侧

“过去，端侧其实不被大家看好，”王冠博说，“不过不少投资人和我们聊到，今年整个投资赛道慢慢形成了一个共识——端侧可能会是未来。”相比之下，Agent能力和Token需求爆发式增长，厂商下调Token价格几乎是杯水车薪。

万格智元希望端侧成为下一个计算范式，让用户从“租赁智能”变成“拥有智能”。长期来看，他们认为未来的Token使用类似于现在的WiFi——所有硬件都拥有本地自产Token的能力，将云端能力全部搬至端侧，端侧的每一台设备都能定点服务周边所有网络。

目前，万格智元提供的服务仍聚焦于做软件和硬件之间的中间层。不过王冠博表示，这只是第一阶段。到了下一阶段，他们可能会考虑自研端侧AI硬件。“现在还没有到特别适合做硬件的阶段。”一方面，芯片技术尚未收敛——目前的GPU适合模型训练，但不适合高效推理，现在下场反而会把形态固定化，导致后期迭代成本较高。下一代芯片，比如国产NPU，或许会带来一次大变革。另一方面，做硬件不完全依靠技术和工程化能力，更关键的是供应链能力。“如果是做硬件，我们需要提前10个月左右布局，打通上下游供应链和市场销售。和B to C的客户合作，也能率先抢占生态位。”

“AI浪潮在明年会逐渐退去，这个‘退’不是指退场，而是把浪打在了端侧。”下一阶段的端侧，会出现一个能承载住Token爆发的应用，而他们要做的，是为这些应用提供更下游的服务。从长期来看，他们希望把cPilot和Amis打造成低内存赛道上最完善、跨平台适用、用户能开箱即用的平台。

连续完成五源、峰瑞两轮数千万元融资，清华00后团队要解决Token账单焦虑

不做端侧小模型

MoE已经够稀疏了，但还有十倍下降空间

AI的下半场在端侧

相关阅读

相关下载