首页 > 教程攻略 > ai教程 >从 3D Gaussian Splatting 到具身智能：AI 正在学会“进入世界”

从 3D Gaussian Splatting 到具身智能：AI 正在学会“进入世界”

来源：互联网时间：2026-06-11 07:33:09

过去十年，AI已经学会了两件事：读和写。大模型能理解复杂语义，也能生成高质量内容，看起来确实“很聪明”。但要是把它扔进真实世界——比如让它拿个杯子、开扇门、或者在一个陌生环境里行动起来——问题立刻就暴露了：它既不懂空间，也不会行动。

这恰恰是当前AI的边界所在。语言智能解决的更多是“知道”，而现实世界真正需要的是“做到”。从这个角度看，AI的下一个阶段，其实不是更强的对话能力，而是具身智能（Embodied AI）。有意思的是，在这条路上，一个原本属于计算机图形学的技术——3D Gaussian Splatting（3DGS）——正成为关键的支点。

3DGS：不只是更快的NeRF

很多人第一次听到3DGS，往往会把它当作“NeRF的加速版”。这种理解不能说错，但确实远远不够。传统三维表示方法一直存在一个经典矛盾：Mesh或点云结构清晰，但表达能力有限；NeRF表达能力强，但推理速度极慢。3DGS的价值恰恰在于——它打破了这种二选一的困局。用一组带有空间分布的高斯来表示场景，系统既获得了显式结构，又保留了连续表达能力，还能实现实时渲染。

但更关键的是，它带来了一个全新的可能性。材料中也点到：3DGS正在从“单场景表示”走向“世界级系统”。这句话背后，是整个技术方向的转折点。

一个关键变化：从渲染工具到“空间系统”

过去的三维技术大多是离线的。你建模、渲染、输出结果——典型的“工具链”。但现在的系统开始发生变化，它们更像是“运行时系统”：场景可以按需加载（类似视频流），数据可以跨设备访问，渲染复杂度与场景规模也逐渐解耦。这意味着什么？简单说：一旦三维数据变成“在线系统”，它就不再只是用来看，而是可以参与计算、推理甚至决策。这一步，才是3DGS真正“出圈”的原因。

AI的三块拼图：认知、空间、行动

如果再把问题往上抽象，其实可以用一句话概括当前AI的核心方向——把“知道”转化成“做到”。这背后对应三种能力：

1. 认知（Cognition）

由多模态大模型（比如GPT-4V、LLaVA）承担。它负责理解用户说什么、任务是什么、目标是什么。但它的短板也很明显：

它不知道世界的真实结构

。

2. 空间（Spatial Representation）

这正是3DGS的位置。它提供的能力是：物体在哪里、长什么样、跟其他物体的关系如何。从本质上看，3DGS正在变成一种“可查询的三维数据库”——你可以查询、操作、甚至更新这个三维世界。

3. 行动（Action）

这层最容易被忽视，但也最关键。传统方法用控制算法或强化学习，而现在越来越多工作开始用生成模型（尤其是Flow/Diffusion）来生成动作轨迹。相比扩散模型，Flow Matching的优势在于推理更快、延迟更低，更适合实时控制。

一个完整闭环：AI如何真正“做事”

当这三块拼图拼在一起，就会形成一个非常清晰的结构：

用户指令 ↓
多模态 LLM（理解任务） ↓
3DGS（获取空间信息） ↓
Flow 模型（生成动作） ↓
执行 ↓
反馈 → 再次更新

这个结构的关键，不是每一层有多强，而是：

它形成了一个闭环

。过去的AI大多是“输入→输出”，而这里是“输入→行动→反馈→再决策”，这才是智能系统的本质。

为什么3DGS是关键，而不是可选项

你可以把整个系统想象成三层：LLM是大脑，Flow是肌肉，而3DGS是眼睛和空间记忆。没有LLM，系统没有目标；没有Flow，系统无法行动；但如果没有3DGS，系统根本不知道世界长什么样。这也是为什么很多“看起来很强”的AI在现实环境中表现很差——它们缺的就是空间层。而3DGS的意义在于：它正在成为AI与现实世界之间的接口。

工程现实：理想很美，落地很难

说到这里，很容易产生一种错觉：路线已经很清晰了，剩下就是工程实现。但现实恰恰相反。目前最大的问题有三个：

1. 技术门槛极高

涉及多视图几何、神经渲染、优化算法——不是简单调库就能解决的。

2. 工程链路很长

典型流程是：数据采集→SfM→MVS→NeRF→3DGS。每一步都有坑，而且很多是“隐性坑”。

3. 性能优化困难

GPU显存限制、数据调度问题、实时性要求——很多项目跑是能跑，但不可用；可用，但不可扩展。

总结

如果用一句话总结这条技术路线：AI正在从“理解语言”走向“理解世界”。而这条路径的核心结构已经很清楚：大模型负责理解，3DGS负责建模世界，Flow模型负责行动。其中，3DGS是最容易被忽视的一环，但它很可能是一切的基础。如果你正在做三维重建、机器人、自动驾驶或者XR——这个方向基本可以确定，不是短期热点，而是长期基础设施。