橡木果发布“本能驱动”技术路线
这几天,科技圈被一个消息刷了屏——北京橡木果机器人科技(Acorn Robot)正式亮出了名为
"本能驱动"(Instinct-Driven)

同时,公司也正式官宣,已在今年3月完成了
近亿元种子轮融资
现在主流的具身智能方案,比如VLA(视觉-语言-动作)这样的端到端架构,可以看作是“自上而下”的路数。但橡木果团队明确指出,这条路至少面临三个绕不开的结构性问题:
| 困境 | 自上而下(VLA) | 橡木果(本能驱动) |
|---|---|---|
| 数据规模 | 语言一个模态扩展到操作三个模态,再加上硬件差异,数据量是指数级膨胀 | Natus模型可以零数据冷启动,完全不依赖训练数据 |
| 实时性 | 语言模型还在一个字一个字地“蹦”,操作等不起这么慢的响应 | 毫秒级端侧响应,触觉信号直接驱动动作 |
| 泛化性 | 换个场景就失灵,硬件一换模型基本白费 | 硬件自适应,出厂就能适配不同的夹爪和灵巧手 |
他们用了一个特别形象的比喻:打乒乓球的规则全世界都一样,但每个选手的具体打法千差万别。所以不存在一个对所有硬件都通用的“最好模型”,只有和硬件最匹配的那个模型才是最优解。
橡木果的策略是把任务规划和操作执行彻底拆开,通过一个标准化的接口来协同工作:
任务规划层(上层)
操作执行层(下层)
| 模型 | 定位 | 核心能力 |
|---|---|---|
Natus | 端侧自主决策模型,直接嵌入末端执行器 | 零数据冷启动、硬件自适应、毫秒级响应 |
Magis | 通用操作技能模型 | 利用Natus交互数据训练,实现跨本体、跨任务的泛化 |
这里面最值得关注的是Natus。它完全嵌在机器人手指里,由触觉刺激直接驱动,不需要任何训练数据或微调。它赋予了机器人三种根本性的操作本能:
- :和视觉系统配合,指引末端向目标移动。
定向本能
- :手指一碰到物体,就会沿着表面自主摸索,寻找最稳定的抓握位置。
探索本能
- :以“滑移最小化”为目标,实时调整抓力——抓豆腐时自动松,抓锤子时自动紧。
执行本能
实测结果很有意思。Natus驱动的机器人,遇到从没见过的异形物体,会沿着表面摸索然后成功抓起来;面对装了一半水的瓶子,它会反复试探重心,然后调整抓力;面对极薄的卡片,它会用推、翘、扣等各种动作(注意,这些都不是预设程序)成功抓起——这是真正的行为涌现。
Magis模型的训练数据,就来自Natus在这种真实交互中产生的、带有“触觉语义”的数据。比如Natus抓一个香蕉,它记录的不仅是个“成功”结果,还有“120克、质心偏左、表皮粗糙、硬度中等”这些详细的力学语义。这些数据叠加到视觉图像上,让Magis能真正“理解”物理世界,而不只是认出它长什么样。训练数据的需求量也因此从传统的百万小时级别,降到了
几千小时
要构建这种本能,就必须有完备的触觉输入。橡木果团队花了7年时间,迭代了十多代原型机,自研了
第三代视触觉传感器
这套技术已经落地到工业柔性生产场景了。他们的机器人系统在
某全球头部化妆品ODM厂商
橡木果的态度很明确——不追求做全能选手,专注打好地基,做最底层的操作基石。他们的愿景是:未来上层由大模型负责任务规划(解决“做什么”),下层由本能驱动系统负责操作执行(解决“怎么做”),二者通过标准化接口无缝协作。这听起来,才是走向真正通用、可靠具身智能该有的路径。