首页

手游

资讯

专题

首页 > 教程攻略 > ai教程 >《从0到1将 AI核心名词连成线》

《从0到1将 AI核心名词连成线》

来源：互联网时间：2026-06-13 07:27:19

早期的方案叫RNN，就像孩子读课文，一个字一个字地往下啃。读到后面，前面早就忘干净了。又慢，又容易丢信息。

直到2017年，Google拿出了Transformer。

它的核心叫做自注意力机制。说白了，不再一个字一个字读了——一句话全扔进去，每个词同时去看其他所有词，找出谁跟自己最相关。就像是一个小组讨论：每个人都能听到所有人的发言，然后再决定自己该说什么。

一、底层引擎：模型怎么理解文字

LLM：文字接龙高手

Large Language Model，大语言模型，这名字太学术。换个说法：LLM就是一个训练出来的“文字接龙高手”。比如你写“床前明月”，它就会接“光”；你问“1+1=？”它就会答“2”；你让它写代码，它一行行给你生成。

原理其实没变——每一步都是在预测下一个最合理的词。但有意思的是，当参数量从几百万膨胀到几千亿之后，奇怪的事情发生了：它会推理了，会翻译了，会写诗了，甚至会举一反三了。

这块的核心在于：Transformer解决了“如何理解上下文”的问题——这是发动机；而LLM用海量数据把这台发动机放大，带来了所谓的“涌现智能”——这是整车。但有一个关键点：LLM不识字。它里面跑的全是矩阵乘法，它只吃数字。

二、翻译层：文字怎么变成模型能算的东西

所以必须在中间架一个翻译官。这就是Tokenizer。

它干两件事：首先是编码，把文字切成若干小片段——每个片段就是一个Token，然后每个Token去词典里查表，映射成一个数字，这就是Token ID。反过来就是解码，模型每次吐出一个Token ID，系统反向查表，变回文字片段，再拼起来，流式输出给你。

语言	1个Token约等于
英文	0.75个单词
中文	1.5~2个汉字

为什么GPT按Token计费？因为Token就是它的“汽油”——灌进去的每一升，它都得烧。

但Token ID只是一个索引号。“猫”=4867，“狗”=3291。光看这两个数字，你根本看不出它们都是宠物。这时候就轮到Embedding出场了。

Embedding：数字到语义的映射

Embedding干的事，就是把这个编号映射成高维空间里的一个坐标。在这个空间里，意思相近的词，位置也相近。“猫”离“狗”很近，离“汽车”很远。大模型所有的“理解”，本质上就是在这个向量空间里做加减法。

一个经典到被用烂、但真的很好懂的例子：“国王”-“男人”+“女人”≈“王后”；“北京”-“中国”+“日本”≈“东京”。

三、工作记忆与使用说明书

Context（上下文）

模型本身是没有“记忆”的。每次你发消息，平台并不是只把这句单独发过去。它会打包一整袋信息一起塞给模型。这袋信息就是Context，里面装着：你们之前的所有对话记录、你刚发的这句话、后台给模型定的“人设说明书”，以及它能用的工具清单和它自己已经输出的内容——这样它就知道自己说了什么，不会重复。

模型读完这袋信息，再决定下一个Token是什么。

但这袋子有容量上限。Context Window就是袋子能装的Token上限。GPT-4 Turbo是128K Token，大约一整本《三体》第一部。超出窗口的对话，模型就彻底“忘干净了”。

Prompt（提示词）

Prompt就是你给模型的输入。分成两种类型：System Prompt，由开发者定义模型是谁、什么能做、什么不能做，用户看不到；User Prompt，就是你写的具体任务，比如“帮我翻译”“写段代码”。

曾经有一段时间，Prompt Engineering被视为一门手艺。怎么措辞、怎么排列、怎么用“让我们一步一步思考”来引导推理。但现在风向变了。不是因为Prompt不重要了，而是因为模型变聪明了。你不需要像教小孩一样小心翼翼遣词造句——把需求讲清楚就行。措辞技巧在贬值，思维清晰度在升值。

总结一下：Context是模型的工作记忆，窗口大小决定记忆力上限；Prompt就是你给模型下的任务书加后台定的人设。但模型有个死xue：它的知识冻结在训练完成那一天。它不知道“现在发生了什么”。

四、知识补丁：让模型知道“现在”

RAG（检索增强生成）

怎么办？两种思路。第一种思路：考试带小抄。

提问时，先到外部知识库——文档、数据库、网页——里翻一圈，把相关内容找出来，贴在你的问题后面，一起发给模型。模型一看：“哦，这是参考资料，我按这个来答。”这就是RAG，检索增强生成。

流程也很清晰：你提问，系统先去知识库检索相关内容，把检索结果拼进Context，模型基于“外部资料+自身知识”生成答案。市面上大部分“AI知识库”“AI客服”产品，底层就是RAG。优点是快、便宜、不碰模型。但缺点是检索质量决定回答质量——搜不到就等于没有。

Fine-tuning（微调）

第二种思路：让模型背书。拿你的领域数据——医学文献、法律合同、产品说明——对模型做额外训练，调整它的一部分参数，让它在特定领域的表现大幅提升。这就是微调。通才修一门专业课，变成专才。

	RAG	Fine-tuning
怎么工作	不动模型，外部查资料塞进去	改模型本身，内化知识
类比	考试带小抄	背书
优点	快、便宜、资料随时更新	领域表现更深层、更稳定
缺点	检索质量决定上限	贵、慢、更新知识要重新训练

两个方案并不互斥。很多产品的路径是：先RAG快速上线，收集真实用户反馈，再用微调深耕。

Hallucination（幻觉）

模型会一本正经地胡说八道。这不是bug，这是LLM的本质。它不是在“查数据库”，它是在“预测下一个Token”。每一步选概率最高的那个——但概率高不等于事实正确。当模型缺乏相关知识，被推到知识边界之外，它不会说“我不知道”。它编。编得还很像那么回事。

RAG能减少幻觉——用外部资料把它按住；更好的Prompt也能减少幻觉——让它知道边界在哪。但消除幻觉？目前做不到。

Temperature（温度）

这是控制模型“脑洞”大小的旋钮。模型预测下一个Token时，并不总是选概率最高的那个。有时候故意选个偏的——答案就会更有“创意”。Temperature就是调节这个“敢不敢偏”的参数。低温度下，模型很保守，每次选最安全的词，输出稳定但可能干巴；高温度下，模型会冒险，偶尔选小概率词，更有趣但也更容易跑偏。写代码就用低温度，写诗就用高温度。

到这里可以做个总结：模型知识有截止日期，所以RAG给它“带小抄”；通用能力不够专，所以用微调让它“背书”；但模型本质是概率预测，不是数据库，所以幻觉无法根除；Temperature则用来调节保守与创意之间的平衡。但所有这些全是认知层面的补丁——模型仍然被困在文字世界里，它没有手脚。

五、突破边界：让模型触碰现实

Tool（工具调用）

要想让它感知和影响外部世界，就得给它装手脚。这就是Tool。本质上，Tool就是一个函数。模型需要查天气时，它不“猜”天气——它输出一个信号：“我要调用get_weather这个函数，参数是城市名。”平台收到信号，执行这个函数，把真实结果——比如“上海，26°C，多云”——塞回Context。模型再基于结果继续生成。流程就是：用户→平台→大模型→调用工具→工具返回结果→大模型→用户。

但问题又来了。

MCP（模型上下文协议）

矛盾在于：每个平台接入工具的方式都不一样。OpenAI有一套规范，Anthropic有一套，Google又有一套……你写一个工具，想在所有平台跑，得分别适配。工具多了，适配组合指数爆炸——N个工具×M个平台，就是N×M套适配代码。

这是典型的“接口不统一”问题。历史上被解决过很多次。最像的那一次是：所有手机充电口统一成Type-C——之前每家都有自己的充电口，出门带一堆线；统一之后，一根线到处用。

Anthropic在2024年底提出了一个开放协议，定义了工具与AI平台之间怎么通信。你按MCP写一个服务端，所有支持MCP的平台都能直接用。工具开发者不用再为每个平台写适配，平台方不用再为每个工具做集成。这就是协议的力量——把N×M的问题变成了N+M。

也就是说，Tool给模型装上了手脚，让它触碰现实；MCP则给Tool定了统一接口，实现了Type-C化。但模型有了工具，它还是被动的——每次都得等你的指令。

六、自主层：模型开始自己干活

Agent（智能体）

想一下这个场景：“帮我研究一下MCP协议，写一篇综述，发到我的博客上。”这不是一问一答能解决的。它需要搜索资料、阅读整理、撰写文章、发布到博客平台。中间可能遇到链接失效需要换源、文章太长需要分段、发布失败需要重试。

Agent就是能干这种活的系统。你给目标，它自己拆解成子任务，决定每一步调用什么工具，根据工具返回的结果调整下一步计划，循环直到完成。

两个经典的Agent构建框架：ReAct是“想一步，走一步”，每轮先推理当前状况，决定下一步行动，执行，观察结果，再推理，如此循环；Plan and Execute则是“先画地图，再走路”，先制定完整计划，然后按计划执行，中途发现计划错了再修正。

知名的Agent产品已经有Claude Code、Codex CLI、Gemini CLI、Cursor的Agent模式。2025年，Agent正在从概念变成每个开发者都能用的日常工具。

Agent Skill（智能体技能）

一个Agent能做的事太多了。你不想每次都把所有能力列出来让它选——Context窗口本来就紧张。所以需要把常用的能力“打包”：给一个名字、一个触发条件、一套执行步骤。这就是Skill。比如一个翻译Skill：触发条件是用户要求翻译某个文件，执行步骤就是读取文件、按指定语言翻译、保持格式、保存到指定路径。

从Transformer到Agent Skill，我们走完了一整条从“数学运算”到“自主干活的AI”的进化链。Agent让模型从“被动回答”升级到“主动规划”，Skill则把Agent的能力打包成可插拔的模块。

好了，感谢你的阅读，祝你有开心的一天！