抢先李飞飞!世界模型能多人联机玩FPS游戏了
我被AI“干掉”了?有视频为证,在一个由世界模型创造的数字空间里,我被一个身份不明的对手一枪终结。
这一切发生在一个画质略显粗糙的网页版FPS游戏中。但关键在于,你眼前所见的一切——场景、角色、动作——背后并没有传统的游戏引擎、物理规则或一行行渲染代码在支撑。整个世界的运转,都依赖于一个名为
Agora-1
人类玩家与AI玩家正在同场竞技
一场AI驱动的“黄金眼”对决
不妨先看看官方的产品发布视频。观感相当独特,与常见的科技演示截然不同。制作团队的审美颇具风格,短片氛围让人联想到《黑镜》系列。尤其值得注意的是,视频中的人物也带着一种微妙的“伪人感”,让人不禁怀疑他们是否也是AI生成的产物。
视频的核心信息很明确:他们开发了一款由世界模型驱动的多人游戏,最多支持四名玩家(人类与AI混合)在同一个AI生成的世界中进行对战。看到这里,很难不产生亲手一试的冲动。
果然,发布帖文中附带了游戏链接。开发团队甚至在评论区留下了颇具挑衅意味的留言:“去碾压那些菜鸟吧!”
于是,体验开始了。点开链接的瞬间,此前观看视频时的直觉便得到了印证——
这个产品透着一股“不太正常”的气息
这种感受首先来自听觉:背景音乐的风格异常独特,旋律极具记忆点。视觉上,深色调、低饱和度的用户界面,进一步强化了那种置身科幻剧集的疏离感。细节也毫不马虎,鼠标悬停在按钮上时,会触发质感沙哑的老式收音机音效,仿佛在玩一款恐怖游戏。
进入游戏,首先需要选择角色名称。随后,玩家会进入一个等待室。
这里的设计有点意思:游戏需要凑齐最多四名玩家才能开始,等待时间过长时,两名玩家也可以开局。这引发了一个疑问:既然宣称有AI玩家,为何不在人数不足时让AI补位呢?其设计逻辑值得玩味。
理解这款游戏,需要一点背景知识。它本质上是在致敬1997年任天堂N64平台上的经典之作——《GoldenEye 007》。这款改编自007电影《黄金眼》的游戏,被广泛认为是主机平台第一人称射击(FPS)多人对战的奠基者之一。规则极其简单:分屏对战,使用各类枪械,目标纯粹是消灭所有对手,即所谓的“死亡竞赛”模式。
Agora的这款演示游戏完全继承了这一核心设计。游戏开始后,玩家会置身于一个带有“后室”风格的场景中。
环境氛围诡异,玩家的移动方式更是增添了这种怪异感——角色移动时没有脚步声,如同在冰面上平滑漂移。所有角色的动作都显得有些不自然,以至于你根本无法分辨哪个是真人,哪个是AI。
然而,真正的挑战来自于操控体验。游戏不支持用鼠标直接控制视角,而是强制使用左右方向键进行操作。这导致了极高的操作延迟和明显的动作后摇,移动起来如同失控的漂移,
瞄准变得极其困难
于是,在还没搞清状况时,“死亡”就降临了。
一枪未中,就被对手精准击倒。这不得不让人怀疑,对方是否就是那个不受操作限制的AI。阵亡画面是一片深红,相当憋屈。
最终的战绩结算界面,或许能带来一丝安慰——当然,也可能只是因为对手同样是“菜鸟”或本身就是AI。
除了核心对战,游戏里还隐藏着一些有趣的细节。例如,点击“信息”按钮可以查看开发公司Odyssey的介绍。
更有意思的是,有玩家发现,你可以利用“bug”卡进地图的砖块墙体里。这时,世界模型并不会崩溃或显示黑屏,
而是会即时生成一个本不该存在的空间
这个现象揭示了世界模型与传统游戏的根本不同。在传统游戏中,地图边界之外是程序员未定义的“虚无”。但对于世界模型而言,
“边界”这个概念本身可能是模糊的
然而,重点从来不是游戏本身是否好玩。回想一下刚才描述的操作:移动、瞄准、射击、环境互动——这些在传统游戏逻辑里再简单不过。但别忘了,
这一切都发生在一个由AI实时生成的世界里
选择《黄金眼》作为试验场,本身也极具象征意义。这种混乱的分屏玩法之所以技术挑战巨大,正是因为它极易暴露出不同玩家视角间的不同步与不连贯。要实现多人FPS,必须保证所有参与者感知到的世界状态是高度一致的,这对持续模拟的环境提出了苛刻的一致性要求。
更重要的是,实时互动的游戏场景极易失控。如何在
环境的复杂性与游戏的可玩性
Odyssey:专注通用世界模型的探险家
打造这款游戏的公司名为
Odyssey
这是一家专注于通用世界模型研发的AI实验室,其产品线几乎全部围绕世界模型展开。创始团队背景很有意思:
Oliver Cameron和Jeff Hawke
2024年7月,Odyssey首次在资本市场亮相,获得了由GV领投的900万美元种子轮融资。短短几个月后,公司又完成了1800万美元的A轮融资,总融资额达到
2700万美元
Agora-1便是其最新成果,其最大特点在于——
支持多人实时交互
此前的主流世界模型,无论画面多么精美,本质上都是“单人游戏”。用户只能在AI生成的世界里孤独地探索。而Agora-1首次允许最多四名玩家同时进入同一个生成世界并进行实时互动(尽管体验尚不完善)。
那么,“多人”究竟难在何处?这个问题值得深入探讨。此前并非没有尝试者,例如
Multiverse和Solaris
Multiverse的思路较为直观:将所有玩家的状态拼接成一幅分屏画面,将其作为一张整体图像来处理。这种方法虽然能运行,但显得较为粗暴,并未触及问题本质。Solaris则尝试将每个参与者的数据沿着单个自回归扩散Transformer的序列维度进行拼接,以生成更稳健的共享模拟。但这种方法面临明显的扩展性问题:参与者一多,上下文长度便会爆炸式增长。
这两条路径还有一个共同的痛点:
当玩家彼此离开视野范围时,系统很难稳定地维持整个世界状态的一致性
为了从根本上解决负载问题,Agora-1选择了一条不同的技术路线——
将“仿真”与“渲染”两个过程解耦
Agora-1实际上学习了两个独立函数:
1. 仿真函数
2. 渲染函数
可以粗略地将这种拆分类比为现代游戏引擎的结构。但关键区别在于,Agora-1的这两个组件都是通过机器学习得来的,不依赖于任何手写的游戏逻辑或渲染规则。其结果是:
底层的游戏状态可以被直接操控和演化
值得一提的是,在发布Agora-1的前一天,Odyssey还推出了另一个名为
Starchild-1
它能够同步实时生成视觉与听觉内容,并支持交互。例如,你可以让它“弹奏”钢琴,琴键落下的同时,相应的乐音也随之产生。更富想象力的是,它可以用AI重构的方式,带你“重温”一段温暖的记忆,比如一场婚礼。这为AIGC的应用开辟了新的空间:或许未来,它可以用来填补那些我们无论如何努力也无法清晰回忆起来的记忆缺口。
真实,还重要吗?
体验至此,难免让人产生一丝恍惚。必须承认,这些产品都处于非常早期的阶段。画质粗糙、操控蹩脚、延迟明显,体验远称不上完美,距离像GPT-4o那样让普通用户直观感受到震撼的阶段尚有距离。
但在试玩Agora-1的某个瞬间,那种恍惚感是真实的:我瞄准一个角色并开枪,它应声倒下。但我不知道它是人还是AI;我不知道眼前这个世界是如何被一帧帧渲染出来的;我甚至不确定,我的对手所看到的世界,是否与我看到的完全相同。然后我突然意识到——我所经历的一切,都是一个数学模型计算的结果。
这种感觉非常奇特。
最近,随着GPT模型的更新,人们开始担忧AI生成虚假聊天记录,感叹“有图有真相”的时代或许正在终结。但相比之下,静态图片或许还不是最令人深思的。世界模型不同,它模拟的是一个持续运转、多人共享、实时演化的环境。
它试图模拟的,是时间流本身,是主观的体验过程。
今年以来,目睹世界模型持续进化——从模糊到清晰,从单人到多人,从仅有画面到融入声音、触觉等多重感官——有时会让人不寒而栗。一个终极问题悄然浮现:我该如何确信,自己所处的当下这个世界,不是某个更高级的世界模型所生成的?
1997年,年轻人们围在N64的小屏幕前分屏追逐,觉得那便是最酷的娱乐。2026年,AI学会了自行生成世界,而它的创造者则“哄骗”着我这样的用户投身其中。按照当前AI的发展速度,到2035年,情景又会如何?
所谓的“真实”……