首页 > 教程攻略 > ai资讯 >Sage – 商汤绝影推出的端侧多模态智能体基座大模型

Sage – 商汤绝影推出的端侧多模态智能体基座大模型

来源：互联网时间：2026-06-30 16:02:09

在智能汽车领域，一个长期存在的矛盾是：我们既渴望云端大模型那种强大的理解和推理能力，又受限于车端有限的算力和必须保障的实时响应。这个“鱼与熊掌”的难题，如今似乎有了一个颇具说服力的答案——商汤绝影推出的端侧多模态智能体基座大模型 Sage。

简单来说，Sage 是一款专门为汽车打造的、能在车机本地运行的“大脑”。它采用了一种名为 MoE（专家混合）的先进架构，总参数量达到 320亿，但在实际推理时，每次只激活其中的 30亿参数。这种“大仓库、小出口”的设计，让它既具备了处理复杂任务的知识储备，又保证了在英伟达 Orin X 这类车规级芯片上的运行效率。最引人注目的是其性能：在衡量智能体任务完成率的 PinchBench 评测中，Sage 取得了 94% 的惊人成绩，甚至超越了 Claude-Opus-4.6、GPT-5.4 等一众需要联网的云端旗舰模型。这背后，离不开其搭载的 SCOUT 与 ERL 两项独家后训练技术，它们共同赋予了 Sage 解析复合指令、联动多系统、主动感知环境的核心能力。

Sage的主要功能：从被动响应到主动服务

那么，这颗“端侧大脑”具体能做什么？它远不止是一个升级版的语音助手。

首先，是理解复杂人话的能力。

用户不再需要发出“打开空调-调到23度-导航去公司-播放新闻”这样一连串的单一指令。只需说一句“我有点冷，顺便导航去公司路上听听新闻吧”，Sage 便能一次性解析出调节温度、设置导航、开启娱乐这三个意图，并自动协调空调、车机、音响等多个系统，一气呵成地完成任务闭环。

其次，是有了“眼睛”和“预感”。

通过融合车内摄像头、麦克风等传感器数据，Sage 能实时感知舱内状态。例如，检测到后排有儿童乘坐时，它会主动触发儿童模式，自动锁闭车窗、切换儿童娱乐内容并限制音量。结合实时路况，它还能在发现前方拥堵时，主动询问并推荐更优路线，实现从“你问我答”到“我先知先觉”的转变。

再者，是真正的执行与推理能力。

这得益于其对工具的长链路调用和多步逻辑推理。在专门评估智能体执行能力的 τ2-bench 基准测试中，Sage 拿到了 80 分的高分。这意味着它不仅能理解命令，还能像人类一样规划步骤、使用工具（如查询、计算、控制设备），最终可靠地达成目标。

最后，是所有体验的基石：即时响应。

由于完全在车端运行，Sage 摆脱了对网络信号的依赖。在 Orin X 平台上，其首字响应时间仅约 0.5 秒，单 Token 延迟低至 0.03 秒，生成吞吐达到 80 tk/s。这种“零等待”的流畅感，才是高端智能交互应有的样子。

技术内核：如何用更少的资源，办更大的事？

Sage 令人印象深刻的性能表现，根植于几项关键的技术创新。

核心架构是高效的 MoE。

320亿的总参数是它的知识库，而每次推理仅激活 30亿参数，则确保了在端侧有限算力下的可行性与经济性。这是一种典型的“好钢用在刀刃上”的策略。

训练阶段有“侦察兵”SCOUT。

这项分级协同学习技术，其思路非常巧妙：让一个轻量级“小模型”像侦察兵一样，先去探索复杂任务的最优解决路径；然后让“大模型”观察并吸收这些经验。这种方法被证实能在复杂任务训练中节省约 60% 的 GPU 计算小时，大幅降低了模型迭代优化的成本。

推理过程有“橡皮擦”ERL。

可擦除强化学习是保障执行可靠性的关键。传统模型一旦在推理链中某步出错，错误会像滚雪球一样扩散，导致最终失败。而 ERL 技术能让模型自己识别出推理中的错误步骤，将其“擦除”并重新生成，从而从源头阻断任务失败。数据显示，这能让复杂任务的完成率提升 20%。

此外，是一体化的多模态理解。

Sage 并非简单地将视觉、语言模型拼接，而是从训练初期就采用视觉、语言和车载传感器数据融合的原生架构。这使其对“车内”这个特定场景有着更深度的语义理解，比如能准确区分“帮我看看后面有什么”指的是后备箱还是后排座椅。

关键信息速览

模型架构：
MoE架构，总参数320亿，激活参数30亿。
部署平台：
已在英伟达 Orin X 端侧平台实现部署验证。
性能标杆：
PinchBench 任务完成率 94%，超越多个主流云端模型。
硬件载体：
已在近期北京车展期间推出搭载 Sage 的 SageBox 硬件产品。
目标用户：
主要面向寻求高端智能化的车企、Tier 1 供应商及端侧智能体开发者。
网络要求：
纯端侧运行，无需云端网络连接，保障隐私与稳定性。
生态兼容：
支持接入 OpenClaw、Hermes 等主流智能体开发框架。

Sage的核心优势：不止于参数的游戏

在参数竞赛白热化的今天，Sage 选择了一条更务实的路径，其优势也体现在多个维度。

第一，是极致的性能效率比。

仅用 30亿激活参数，就在 PinchBench 上达成了 94% 的完成率。作为对比，同样定位端侧的小米 MiMo-v2-Pro 模型激活参数为 420亿，而 Sage 的激活算力需求仅为前者的 1/14，显存占用约 1/31，性能反而高出 6.6 个百分点。这对车规级芯片的选型和成本控制意义重大。

第二，是全链路的成本优化。

如前所述，SCOUT 技术能节省约 60% 的复杂任务训练成本，ERL 技术则提升了推理成功率，间接降低了因任务失败导致的用户投诉和后续维护成本。

第三，是深厚的场景化理解。

在针对车载场景的 Human Semantic Understanding 测试中，Sage 获得 91.5 分，领先同级端侧模型达 32%。这意味着它更懂车、更懂车内的人，这是单纯堆砌通用数据难以获得的优势。

第四，也是最重要的，是明确的量产可行性。

它并非实验室原型，而是已经在英伟达 Orin X 这一成熟车规平台上完成部署验证，具备了走向前装量产的技术条件。

横向对比：在端侧赛道中处于什么位置？

对比维度	Sage	Google Gemma 4	MiMo-v2-Pro
发布方	商汤绝影	Google	小米
总参数量	32B	同量级端侧	超1T
激活参数量	3B	未披露	42B
PinchBench完成率	94%	83.9%	87.4%
MMLU Pro	75.8	69.2	–
GPQA Diamond	77.3	58.5	–
τ2-bench	80.7	42.1	–
Human Semantic Understanding	91.5	69.5	–
部署平台	英伟达Orin X	端侧	端侧
核心定位	端侧智能体基座	端侧通用模型	端侧推理模型

从对比中不难看出，Sage 在多项关键评测中均领先于同赛道选手，尤其是在体现袋里能力的 τ2-bench 和体现车载场景理解能力的 Human Semantic Understanding 测试中优势明显。这清晰地表明了其“为车而生，为智能体任务而优化”的差异化定位。

未来已来：Sage将如何改变车内体验？

基于上述能力，Sage 正在开启几个全新的智能座舱应用场景：

自然流式的多轮交互：

用户可以用更接近人类对话的方式与车机交流，系统能记住上下文，连续处理关联请求，体验不再割裂。

主动式安全与关怀：

就像前文提到的儿童模式，系统能基于感知主动提供服务，从“被动安防”升级为“主动守护”。

全局智能出行规划：

结合日历、车辆状态、实时交通甚至用户的习惯偏好，主动规划包括路径、充电、日程提醒在内的完整出行方案。

舱驾融合的桥梁：

作为舱驾一体方案中的核心 AI，Sage 能够统一理解来自座舱的交互指令和来自智驾系统的环境感知信息，为实现更高级别的场景化服务（如“快下雨了，请关闭天窗并打开雨刷”）提供可能。

总而言之，Sage 的出现，标志着端侧大模型从“能不能用”进入了“好不好用、聪不聪明”的新阶段。它通过一系列精巧的技术设计，在有限的端侧资源内，实现了接近甚至超越云端模型的智能体能力，为下一代智能汽车的体验竞争，划定了一条新的起跑线。

Sage – 商汤绝影推出的端侧多模态智能体基座大模型

Sage的主要功能：从被动响应到主动服务

首先，是理解复杂人话的能力。

其次，是有了“眼睛”和“预感”。

再者，是真正的执行与推理能力。

最后，是所有体验的基石：即时响应。

技术内核：如何用更少的资源，办更大的事？

核心架构是高效的 MoE。

训练阶段有“侦察兵”SCOUT。

推理过程有“橡皮擦”ERL。

此外，是一体化的多模态理解。

关键信息速览

模型架构：

部署平台：

性能标杆：

硬件载体：

目标用户：

网络要求：

生态兼容：

Sage的核心优势：不止于参数的游戏

第一，是极致的性能效率比。

第二，是全链路的成本优化。

第三，是深厚的场景化理解。

第四，也是最重要的，是明确的量产可行性。

横向对比：在端侧赛道中处于什么位置？

94%

75.8

77.3

80.7

91.5

未来已来：Sage将如何改变车内体验？

自然流式的多轮交互：

主动式安全与关怀：

全局智能出行规划：

舱驾融合的桥梁：

相关阅读

相关下载