首页 > 教程攻略 > ai教程 >复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

来源：互联网时间：2026-06-24 07:11:01

2024年底，Ilya Sutskever那句「我们所知的预训练时代即将终结」，像一块石头砸进了AI圈。大家开始集体追问一个更本质的问题：接下来，到底该往哪儿扩展？

新的方向一个接一个浮出水面。推理时扩展让OpenAI的o系列在数学推理上大放异彩；DeepSeek-R1用GRPO替代PPO，在强化学习上开辟了新路；Self-play加LLM的组合，让AI在游戏和代码生成里频频上演惊艳操作；Agent化这条路，又催生了能自己操作浏览器、调用工具的智能助理……每条路径都在赌下一个跃迁点。

在这些热闹的讨论中，复旦大学/上海创智学院的邱锡鹏教授提出了一个耐人寻味的方向——Context Scaling。跟堆参数、堆数据、堆推理计算这些路子不一样，Context Scaling的核心不在「更大」，而在「更深」：怎么让AI真正理解并适应那些复杂、多变、模糊的实际情境（Context）。

在跟机器之心的最近一次对谈里，邱锡鹏系统阐述了他对AI发展的洞察：从预训练扩展到后训练优化，再到情境智能（Contextual Intelligence）的深层转变。

AGI三幕演进：从参数堆叠到情境理解

邱锡鹏教授把大模型演进浓缩成一个核心公式：

说白了，大模型的核心就是在给定情境（Context）下把决策（Decision）做准，而这需要从海量数据里学出模型参数θ。

第一幕：模型规模化

。通过堆数据、堆参数，把那些已经发现且能描述的知识「压缩」进模型参数θ里，LLM在通用任务上实现了质的飞跃。ChatGPT、MOSS、Qwen这些代表性模型，都是这一阶段的产物。但数据见顶、参数规模收益递减的信号已经越来越明显——业界普遍意识到，光做加法是走不下去的。

第二幕：后训练优化

。这一阶段主攻推理增强、知识具象化等方向，核心目标是通过引入类人的问题求解过程，继续提升大模型解决复杂问题的决策能力（Decision）。强化学习、工具调用、思维链、多模态成为关键词，GPT o1/o3、DeepSeek-R1、AnyGPT就是代表。

前两幕发展到一定地步后，怎么定义「情境」就成了继续提升模型能力的关键，也是大模型在落地应用中最棘手的一环。很多模型决策不准，很大程度上是因为对任务或情境的描述不够。现在的问题是：当任务或问题本身就很难描述、很难定义时，现有方法全都露出短板。比如，怎么让AI理解一个微妙的社交暗示？怎么在不同文化背景里做出恰当判断？怎么处理那些没法用明确规则定义的复杂交互？这些「暗知识」是人类智能的核心，却是当前技术的盲区。

第三幕：Context Scaling

。这一环节要解决的就是上面这些问题，最终实现「情境智能」。它关注的，是让AI能够理解并适应足够丰富、真实、复杂、多变的情境信息，从而在模糊不清的世界里做出合情合理的判断。

Context的深层内涵：捕获难以描述的「暗知识」

在邱锡鹏教授的定义里，Context远不止当前大模型用的那点「上下文窗口」。它是一个多维、动态、跨模态的信息结构，可能包含时间、空间、参与者状态、目标意图，甚至那些没说出口的文化规则和人际默契。

最关键的，是Context Scaling对「暗知识」的捕获能力。所谓暗知识（Tacit Knowledge），就是人类能掌握但很难清楚讲出来的能力，包括：

社交智能——怎么解读一个眼神、一个停顿、一个语调的变化；文化适应——在不同文化背景里怎么做事才得体，理解那些没明说的社会规则；情境判断——同一句话在不同情境下意思完全不一样；动态适应——在变化环境里持续调整策略和理解。

举个例子：当一个人说「不要」，只有放在完整情境里，AI才能判断这是真拒绝、开玩笑，还是反向请求。在多模态、多轮对话、现实互动任务里，这种差别往往决定了智能的成败。

正是这些难以言说的隐性知识，构成了人类智能的底色。AI如果能通过Context捕获这些结构模糊、路径多变的信息，那才算是真正的智能突破。

同时，这也是AI安全发展的关键考量。一个老生常谈的「回形针悖论」——如果大模型只按「生产更多回形针」这个目标行事，它可能会不择手段，最终威胁人类社会。Context Scaling通过让AI理解复杂的社会情境和隐含价值观，能让它在没有明确禁令的情况下，基于对情境的深度理解，做出符合人类价值观的判断。

三大技术支柱：交互、具身、拟人化

邱锡鹏教授指出，Context Scaling之所以能成为独立技术路径，是因为它有三项独特能力做支撑：

1. 强交互性（Strong Interactivity）

情境智能的本质，在于「从交互中学习」。这包含两个层面。一是跟环境的强化学习交互——AI需要在复杂环境里行动、观察反馈、调整策略，但Context Scaling要求更深层的交互：不仅要学会怎么行动，更要理解为什么这么行动。二是跟人类的多模态协作——包括语言澄清、任务讨论、情绪共鸣等。现在的Gemini Deep Research等助理已经能问用户具体需求，但Context Scaling要求AI能理解用户的情绪状态、文化背景，甚至那些没明说的期望。只有不断从互动中汲取信息的系统，才具备应对复杂情境的应变能力。

2. 具身性（Embodiment）

AI要能交互，要理解所在世界，就要求智能体具备「主体性」——这样才能感知、行动、记忆、学习。但这不意味着非得有个现实世界的完整身体，虚拟环境里的持续任务、AR场景中的决策袋里，也是这项理念的试验场。

3. 拟人化（Anthropomorphizing）

这是Context Scaling独有的特征——AI需要具备类人的情感共鸣和反馈能力。这不是简单的情感模拟，而是对人类偏好和行为模式的深度理解。比如，理解和回应人类的情绪状态，掌握复杂的人际交往规则，懂得什么时候该保持距离、什么时候表达关心，还要有文化敏感性，知道在不同文化背景下调整交互方式和价值判断。

要实现上面三点，Context Scaling要求模型具备持续学习的能力。跟传统的持续学习不同，情境智能的持续学习更强调：在模型参数相对固定的前提下，通过Context的积累和更新，实现能力的持续提升。说白了，就是在使用过程中不断积累经验、调整策略。邱锡鹏教授说：「这也更像是人类的成长与发展——先天基因确定后，通过后天学习和适应新环境，根据具体情境调整行为策略。」

要让Contextual Intelligence成为现实，技术上面临几大挑战：

模型结构突破

：现有Transformer架构在长上下文处理上效率受限，要支持多模态、交互式、动态变化的情境输入，模型架构本身可能需要根本重构。

学习范式转变

：从传统监督学习转向交互式、持续式的弱监督、多反馈学习，再加上在新情境中快速适应的元学习能力——Context Scaling所需的训练目标与损失函数，正在重塑AI学习的本质。

复杂情境的定义与构建

：复杂情境没法靠人工构建，也不可能在真实世界一个一个采集。大规模情境数据的生成，需要借助AI自身合成场景、任务、交互脚本的能力。

邱锡鹏教授强调，Context Scaling并非要替代其他Scaling路线，而是对它们的补充与整合。比如，Test-Time Scaling关注输出阶段的计算效率，Context Scaling关注输入的质量与结构——两者是正交互补的：更丰富的上下文信息，能为推理时计算提供更好的基础。

跟Agent路径比，Context Scaling更多是对任务定义层的重新设想。它强调智能体理解复杂情境的核心能力，这种能力可以通过各种Agent架构实现，但本身超越了具体的工具使用和任务执行。Context Scaling也为强化学习提供了新的环境定义——不再是简单的状态-动作-奖励循环，而是包含丰富情境信息的复杂交互空间。

通往AGI的关键一步

「在大模型时代，如果研究只是在已有路径上做微调，那将失去方向感。」邱锡鹏教授说，「研究者需要去定义那些‘大家都意识到但没人清晰表达’的问题。」

在这场「Scaling What」的集体探索中，Context Scaling把推理增强、多模态融合、强化学习这些看似分散的技术路径，统一在「情境理解」这个核心目标之下。智能的本质，也许就在于面对复杂世界时那份模糊中的准确、不确定中的判断、冲突中的协调。在这个意义上，Context Scaling不只是大模型发展的下一幕，更可能是通往AGI的关键一步。