复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
2024年底,Ilya Sutskever那句「我们所知的预训练时代即将终结」,像一块石头砸进了AI圈。大家开始集体追问一个更本质的问题:接下来,到底该往哪儿扩展?
新的方向一个接一个浮出水面。推理时扩展让OpenAI的o系列在数学推理上大放异彩;DeepSeek-R1用GRPO替代PPO,在强化学习上开辟了新路;Self-play加LLM的组合,让AI在游戏和代码生成里频频上演惊艳操作;Agent化这条路,又催生了能自己操作浏览器、调用工具的智能助理……每条路径都在赌下一个跃迁点。
在这些热闹的讨论中,复旦大学/上海创智学院的邱锡鹏教授提出了一个耐人寻味的方向——Context Scaling。跟堆参数、堆数据、堆推理计算这些路子不一样,Context Scaling的核心不在「更大」,而在「更深」:怎么让AI真正理解并适应那些复杂、多变、模糊的实际情境(Context)。
在跟机器之心的最近一次对谈里,邱锡鹏系统阐述了他对AI发展的洞察:从预训练扩展到后训练优化,再到情境智能(Contextual Intelligence)的深层转变。
AGI三幕演进:从参数堆叠到情境理解
邱锡鹏教授把大模型演进浓缩成一个核心公式:

说白了,大模型的核心就是在给定情境(Context)下把决策(Decision)做准,而这需要从海量数据里学出模型参数θ。
第一幕:模型规模化
第二幕:后训练优化
前两幕发展到一定地步后,怎么定义「情境」就成了继续提升模型能力的关键,也是大模型在落地应用中最棘手的一环。很多模型决策不准,很大程度上是因为对任务或情境的描述不够。现在的问题是:当任务或问题本身就很难描述、很难定义时,现有方法全都露出短板。比如,怎么让AI理解一个微妙的社交暗示?怎么在不同文化背景里做出恰当判断?怎么处理那些没法用明确规则定义的复杂交互?这些「暗知识」是人类智能的核心,却是当前技术的盲区。
第三幕:Context Scaling

Context的深层内涵:捕获难以描述的「暗知识」
在邱锡鹏教授的定义里,Context远不止当前大模型用的那点「上下文窗口」。它是一个多维、动态、跨模态的信息结构,可能包含时间、空间、参与者状态、目标意图,甚至那些没说出口的文化规则和人际默契。
最关键的,是Context Scaling对「暗知识」的捕获能力。所谓暗知识(Tacit Knowledge),就是人类能掌握但很难清楚讲出来的能力,包括:
社交智能——怎么解读一个眼神、一个停顿、一个语调的变化;文化适应——在不同文化背景里怎么做事才得体,理解那些没明说的社会规则;情境判断——同一句话在不同情境下意思完全不一样;动态适应——在变化环境里持续调整策略和理解。
举个例子:当一个人说「不要」,只有放在完整情境里,AI才能判断这是真拒绝、开玩笑,还是反向请求。在多模态、多轮对话、现实互动任务里,这种差别往往决定了智能的成败。
正是这些难以言说的隐性知识,构成了人类智能的底色。AI如果能通过Context捕获这些结构模糊、路径多变的信息,那才算是真正的智能突破。
同时,这也是AI安全发展的关键考量。一个老生常谈的「回形针悖论」——如果大模型只按「生产更多回形针」这个目标行事,它可能会不择手段,最终威胁人类社会。Context Scaling通过让AI理解复杂的社会情境和隐含价值观,能让它在没有明确禁令的情况下,基于对情境的深度理解,做出符合人类价值观的判断。
三大技术支柱:交互、具身、拟人化
邱锡鹏教授指出,Context Scaling之所以能成为独立技术路径,是因为它有三项独特能力做支撑:
1. 强交互性(Strong Interactivity)
情境智能的本质,在于「从交互中学习」。这包含两个层面。一是跟环境的强化学习交互——AI需要在复杂环境里行动、观察反馈、调整策略,但Context Scaling要求更深层的交互:不仅要学会怎么行动,更要理解为什么这么行动。二是跟人类的多模态协作——包括语言澄清、任务讨论、情绪共鸣等。现在的Gemini Deep Research等助理已经能问用户具体需求,但Context Scaling要求AI能理解用户的情绪状态、文化背景,甚至那些没明说的期望。只有不断从互动中汲取信息的系统,才具备应对复杂情境的应变能力。
2. 具身性(Embodiment)
AI要能交互,要理解所在世界,就要求智能体具备「主体性」——这样才能感知、行动、记忆、学习。但这不意味着非得有个现实世界的完整身体,虚拟环境里的持续任务、AR场景中的决策袋里,也是这项理念的试验场。
3. 拟人化(Anthropomorphizing)
这是Context Scaling独有的特征——AI需要具备类人的情感共鸣和反馈能力。这不是简单的情感模拟,而是对人类偏好和行为模式的深度理解。比如,理解和回应人类的情绪状态,掌握复杂的人际交往规则,懂得什么时候该保持距离、什么时候表达关心,还要有文化敏感性,知道在不同文化背景下调整交互方式和价值判断。
要实现上面三点,Context Scaling要求模型具备持续学习的能力。跟传统的持续学习不同,情境智能的持续学习更强调:在模型参数相对固定的前提下,通过Context的积累和更新,实现能力的持续提升。说白了,就是在使用过程中不断积累经验、调整策略。邱锡鹏教授说:「这也更像是人类的成长与发展——先天基因确定后,通过后天学习和适应新环境,根据具体情境调整行为策略。」

要让Contextual Intelligence成为现实,技术上面临几大挑战:
模型结构突破
学习范式转变
复杂情境的定义与构建
邱锡鹏教授强调,Context Scaling并非要替代其他Scaling路线,而是对它们的补充与整合。比如,Test-Time Scaling关注输出阶段的计算效率,Context Scaling关注输入的质量与结构——两者是正交互补的:更丰富的上下文信息,能为推理时计算提供更好的基础。
跟Agent路径比,Context Scaling更多是对任务定义层的重新设想。它强调智能体理解复杂情境的核心能力,这种能力可以通过各种Agent架构实现,但本身超越了具体的工具使用和任务执行。Context Scaling也为强化学习提供了新的环境定义——不再是简单的状态-动作-奖励循环,而是包含丰富情境信息的复杂交互空间。
通往AGI的关键一步
「在大模型时代,如果研究只是在已有路径上做微调,那将失去方向感。」邱锡鹏教授说,「研究者需要去定义那些‘大家都意识到但没人清晰表达’的问题。」
在这场「Scaling What」的集体探索中,Context Scaling把推理增强、多模态融合、强化学习这些看似分散的技术路径,统一在「情境理解」这个核心目标之下。智能的本质,也许就在于面对复杂世界时那份模糊中的准确、不确定中的判断、冲突中的协调。在这个意义上,Context Scaling不只是大模型发展的下一幕,更可能是通往AGI的关键一步。