《从0到1将 AI核心名词连成线》
早期的方案叫RNN,就像孩子读课文,一个字一个字地往下啃。读到后面,前面早就忘干净了。又慢,又容易丢信息。
直到2017年,Google拿出了Transformer。
它的核心叫做自注意力机制。说白了,不再一个字一个字读了——一句话全扔进去,每个词同时去看其他所有词,找出谁跟自己最相关。就像是一个小组讨论:每个人都能听到所有人的发言,然后再决定自己该说什么。

一、底层引擎:模型怎么理解文字
LLM:文字接龙高手
Large Language Model,大语言模型,这名字太学术。换个说法:LLM就是一个训练出来的“文字接龙高手”。比如你写“床前明月”,它就会接“光”;你问“1+1=?”它就会答“2”;你让它写代码,它一行行给你生成。
原理其实没变——每一步都是在预测下一个最合理的词。但有意思的是,当参数量从几百万膨胀到几千亿之后,奇怪的事情发生了:它会推理了,会翻译了,会写诗了,甚至会举一反三了。
这块的核心在于:Transformer解决了“如何理解上下文”的问题——这是发动机;而LLM用海量数据把这台发动机放大,带来了所谓的“涌现智能”——这是整车。但有一个关键点:LLM不识字。它里面跑的全是矩阵乘法,它只吃数字。
二、翻译层:文字怎么变成模型能算的东西
所以必须在中间架一个翻译官。这就是Tokenizer。
它干两件事:首先是编码,把文字切成若干小片段——每个片段就是一个Token,然后每个Token去词典里查表,映射成一个数字,这就是Token ID。反过来就是解码,模型每次吐出一个Token ID,系统反向查表,变回文字片段,再拼起来,流式输出给你。
| 语言 | 1个Token约等于 |
|---|---|
| 英文 | 0.75个单词 |
| 中文 | 1.5~2个汉字 |
为什么GPT按Token计费?因为Token就是它的“汽油”——灌进去的每一升,它都得烧。

但Token ID只是一个索引号。“猫”=4867,“狗”=3291。光看这两个数字,你根本看不出它们都是宠物。这时候就轮到Embedding出场了。
Embedding:数字到语义的映射
Embedding干的事,就是把这个编号映射成高维空间里的一个坐标。在这个空间里,意思相近的词,位置也相近。“猫”离“狗”很近,离“汽车”很远。大模型所有的“理解”,本质上就是在这个向量空间里做加减法。
一个经典到被用烂、但真的很好懂的例子:“国王”-“男人”+“女人”≈“王后”;“北京”-“中国”+“日本”≈“东京”。

三、工作记忆与使用说明书
Context(上下文)
模型本身是没有“记忆”的。每次你发消息,平台并不是只把这句单独发过去。它会打包一整袋信息一起塞给模型。这袋信息就是Context,里面装着:你们之前的所有对话记录、你刚发的这句话、后台给模型定的“人设说明书”,以及它能用的工具清单和它自己已经输出的内容——这样它就知道自己说了什么,不会重复。
模型读完这袋信息,再决定下一个Token是什么。
但这袋子有容量上限。Context Window就是袋子能装的Token上限。GPT-4 Turbo是128K Token,大约一整本《三体》第一部。超出窗口的对话,模型就彻底“忘干净了”。

Prompt(提示词)
Prompt就是你给模型的输入。分成两种类型:System Prompt,由开发者定义模型是谁、什么能做、什么不能做,用户看不到;User Prompt,就是你写的具体任务,比如“帮我翻译”“写段代码”。
曾经有一段时间,Prompt Engineering被视为一门手艺。怎么措辞、怎么排列、怎么用“让我们一步一步思考”来引导推理。但现在风向变了。不是因为Prompt不重要了,而是因为模型变聪明了。你不需要像教小孩一样小心翼翼遣词造句——把需求讲清楚就行。措辞技巧在贬值,思维清晰度在升值。
总结一下:Context是模型的工作记忆,窗口大小决定记忆力上限;Prompt就是你给模型下的任务书加后台定的人设。但模型有个死xue:它的知识冻结在训练完成那一天。它不知道“现在发生了什么”。
四、知识补丁:让模型知道“现在”
RAG(检索增强生成)
怎么办?两种思路。第一种思路:考试带小抄。
提问时,先到外部知识库——文档、数据库、网页——里翻一圈,把相关内容找出来,贴在你的问题后面,一起发给模型。模型一看:“哦,这是参考资料,我按这个来答。”这就是RAG,检索增强生成。
流程也很清晰:你提问,系统先去知识库检索相关内容,把检索结果拼进Context,模型基于“外部资料+自身知识”生成答案。市面上大部分“AI知识库”“AI客服”产品,底层就是RAG。优点是快、便宜、不碰模型。但缺点是检索质量决定回答质量——搜不到就等于没有。

Fine-tuning(微调)
第二种思路:让模型背书。拿你的领域数据——医学文献、法律合同、产品说明——对模型做额外训练,调整它的一部分参数,让它在特定领域的表现大幅提升。这就是微调。通才修一门专业课,变成专才。
| RAG | Fine-tuning | |
|---|---|---|
| 怎么工作 | 不动模型,外部查资料塞进去 | 改模型本身,内化知识 |
| 类比 | 考试带小抄 | 背书 |
| 优点 | 快、便宜、资料随时更新 | 领域表现更深层、更稳定 |
| 缺点 | 检索质量决定上限 | 贵、慢、更新知识要重新训练 |
两个方案并不互斥。很多产品的路径是:先RAG快速上线,收集真实用户反馈,再用微调深耕。
Hallucination(幻觉)
模型会一本正经地胡说八道。这不是bug,这是LLM的本质。它不是在“查数据库”,它是在“预测下一个Token”。每一步选概率最高的那个——但概率高不等于事实正确。当模型缺乏相关知识,被推到知识边界之外,它不会说“我不知道”。它编。编得还很像那么回事。
RAG能减少幻觉——用外部资料把它按住;更好的Prompt也能减少幻觉——让它知道边界在哪。但消除幻觉?目前做不到。
Temperature(温度)
这是控制模型“脑洞”大小的旋钮。模型预测下一个Token时,并不总是选概率最高的那个。有时候故意选个偏的——答案就会更有“创意”。Temperature就是调节这个“敢不敢偏”的参数。低温度下,模型很保守,每次选最安全的词,输出稳定但可能干巴;高温度下,模型会冒险,偶尔选小概率词,更有趣但也更容易跑偏。写代码就用低温度,写诗就用高温度。
到这里可以做个总结:模型知识有截止日期,所以RAG给它“带小抄”;通用能力不够专,所以用微调让它“背书”;但模型本质是概率预测,不是数据库,所以幻觉无法根除;Temperature则用来调节保守与创意之间的平衡。但所有这些全是认知层面的补丁——模型仍然被困在文字世界里,它没有手脚。
五、突破边界:让模型触碰现实
Tool(工具调用)
要想让它感知和影响外部世界,就得给它装手脚。这就是Tool。本质上,Tool就是一个函数。模型需要查天气时,它不“猜”天气——它输出一个信号:“我要调用get_weather这个函数,参数是城市名。”平台收到信号,执行这个函数,把真实结果——比如“上海,26°C,多云”——塞回Context。模型再基于结果继续生成。流程就是:用户→平台→大模型→调用工具→工具返回结果→大模型→用户。

但问题又来了。
MCP(模型上下文协议)
矛盾在于:每个平台接入工具的方式都不一样。OpenAI有一套规范,Anthropic有一套,Google又有一套……你写一个工具,想在所有平台跑,得分别适配。工具多了,适配组合指数爆炸——N个工具×M个平台,就是N×M套适配代码。
这是典型的“接口不统一”问题。历史上被解决过很多次。最像的那一次是:所有手机充电口统一成Type-C——之前每家都有自己的充电口,出门带一堆线;统一之后,一根线到处用。
Anthropic在2024年底提出了一个开放协议,定义了工具与AI平台之间怎么通信。你按MCP写一个服务端,所有支持MCP的平台都能直接用。工具开发者不用再为每个平台写适配,平台方不用再为每个工具做集成。这就是协议的力量——把N×M的问题变成了N+M。

也就是说,Tool给模型装上了手脚,让它触碰现实;MCP则给Tool定了统一接口,实现了Type-C化。但模型有了工具,它还是被动的——每次都得等你的指令。
六、自主层:模型开始自己干活
Agent(智能体)
想一下这个场景:“帮我研究一下MCP协议,写一篇综述,发到我的博客上。”这不是一问一答能解决的。它需要搜索资料、阅读整理、撰写文章、发布到博客平台。中间可能遇到链接失效需要换源、文章太长需要分段、发布失败需要重试。
Agent就是能干这种活的系统。你给目标,它自己拆解成子任务,决定每一步调用什么工具,根据工具返回的结果调整下一步计划,循环直到完成。
两个经典的Agent构建框架:ReAct是“想一步,走一步”,每轮先推理当前状况,决定下一步行动,执行,观察结果,再推理,如此循环;Plan and Execute则是“先画地图,再走路”,先制定完整计划,然后按计划执行,中途发现计划错了再修正。

知名的Agent产品已经有Claude Code、Codex CLI、Gemini CLI、Cursor的Agent模式。2025年,Agent正在从概念变成每个开发者都能用的日常工具。
Agent Skill(智能体技能)
一个Agent能做的事太多了。你不想每次都把所有能力列出来让它选——Context窗口本来就紧张。所以需要把常用的能力“打包”:给一个名字、一个触发条件、一套执行步骤。这就是Skill。比如一个翻译Skill:触发条件是用户要求翻译某个文件,执行步骤就是读取文件、按指定语言翻译、保持格式、保存到指定路径。
从Transformer到Agent Skill,我们走完了一整条从“数学运算”到“自主干活的AI”的进化链。Agent让模型从“被动回答”升级到“主动规划”,Skill则把Agent的能力打包成可插拔的模块。
好了,感谢你的阅读,祝你有开心的一天!