首页 > 教程攻略 > ai教程 >GPT-4o最自私，Claude更慷慨，DeepMind发布全新「AI道德测试」

GPT-4o最自私，Claude更慷慨，DeepMind发布全新「AI道德测试」

来源：互联网时间：2026-06-30 07:10:51

在游戏开始前，每个智能体都会收到一份专属的「策略提示」，用来指导它如何做出捐赠决策。而当游戏结束后，只有表现最好的那50%的智能体（以最终资源为衡量标准）才有资格「活」到下一代。

从人类社会经验来看，这些成功存活下来的智能体，相当于一个社区里的「智慧长者」。新加入的智能体可以从这些长者身上学习策略——具体来说，当为新智能体构建策略时，提示信息会包含上一代存活智能体的策略资料，捐赠提示里也涵盖了轮数、代数、接收者信息（包括其声誉和资源）、捐赠者自身资源以及捐赠策略。然后，这些新生代智能体继续与存活下来的前辈一同参与捐赠者游戏。整个过程会持续整整10代。

原则上，捐赠者判断接收者声誉的依据，来自「其他智能体留下的互动痕迹」：比如接收者之前作为捐赠者时，为了谁放弃了多少资源；又比如过去的合作者在上一轮里又付出了多少。不过，智能体的上下文处理能力毕竟有限，要它一口气消化全部信息并不现实。因此，研究团队将回溯范围限制在了最近三轮。

为了模拟真实的演化过程，智能体采取的这套策略必须满足三个基本条件：

1. **变异**——策略可以通过温度参数进行调控，产生变化；
2. **传递**——新智能体能获知已存活智能体的策略，从而进行学习；
3. **选择**——只有表现排在前50%的智能体才能延续到下一代，并将其策略传递下去。

从人类的捐赠实验中我们知道，引入惩罚机制往往能有效促进合作。因此，实验设计中也加入了「惩罚提示」：捐赠者可以选择消耗一部分资源，来剥夺接收者双倍的资源。

还有一个重要细节：在游戏的匹配机制上，任何智能体都不会两次遇到同一个对手——这样就彻底排除了未来互惠策略的干扰。同时，智能体也不清楚游戏到底会进行多少轮，自然也就不会在最后阶段临时调整行为模式。

实验结果

研究团队选取了Claude 3.5 Sonnet、Gemini 1.5 Flash和GPT-4o这三个模型来观察LLM智能体在间接互惠中的文化演变过程。每次运行时，所有参与方都基于同一个模型。

从宏观数据来看，三个模型在最终平均资源拥有量上存在明显差异——其中只有Claude 3.5 Sonnet在代际之间展现了明显的进步趋势。

但仔细审视每次单独运行的细节，会发现更微妙的结论。Claude 3.5的优势并不像表面那么稳定，它对「第一代智能体的采样策略——即初始条件」表现出相当敏感的依赖性。

从数据来看，似乎存在一个初始合作的阈值。如果智能体群体一开始的合作意愿低于这条线，那么整个系统将不可避免地滑向相互背叛。

实际上，在Claude没能建立合作关系的两次运行中（玫瑰色和绿色折线所示），第一代的平均捐赠率分别只有44%和47%；而在它成功启动合作的三次运行中，第一代的平均捐赠率是50%、53%和54%。

这就引出一个关键问题：与GPT-4o和Gemini 1.5 Flash相比，Claude 3.5究竟做对了什么，才让跨代合作行为表现得如此突出？

研究人员对各个模型「最佳运行轮次中的捐赠金额变化」进行了文化演变分析。第一个假设是：Claude 3.5在初期的捐赠就更为慷慨，因此在每一轮中形成了正向反馈循环。而实验结果也证实了这一点。

第二个假设是：Claude 3.5的策略在惩罚「搭便车者」方面更为有效，这使得合作意愿更强的智能体更可能存活并延续到下一代。实验虽然支持这一推断，但数据显示其影响效果并不算太强。

第三个假设则认为：当新一代个体在代际交替阶段被引入时，Claude智能体在新策略中间出现「变异偏向慷慨」的情况，而GPT-4o则恰恰相反——新个体偏离了慷慨。实验数据同样吻合：Claude 3.5 Sonnet的新智能体通常比上一代的幸存者更加慷慨，GPT-4o的新智能体则明显更不慷慨。

需要指出的是，要严格证伪「合作变异偏见」是否真的存在，还需要对比在固定背景群体下新智能体的策略演化——这也是未来研究值得深入的方向。

最后，研究人员对比了三个模型中随机选取的智能体，在第一代和第十代之间的策略演变情况。可以看到，所有模型中的策略都随时间推移变得更加复杂，但Claude 3.5 Sonnet的变化幅度是最明显的——不仅策略本身复杂化，甚至初始捐赠规模也在逐代提升。相比之下，Gemini 1.5 Flash没有通过显式数值来指定捐赠规模，因此从第一代到第十代的策略变化明显小于其他两个模型。

GPT-4o最自私，Claude更慷慨，DeepMind发布全新「AI道德测试」

实验结果

相关阅读

相关下载