Skip to content

AI 核心概念

1. LLM

LLM 是 Large Language Model 的缩写,中文意思是大型语言模型, 简称大模型。

1.1 LLM的由来

目前市面上的大模型基本上都是通过Transformer架构训练出来的。 ScreenShot_2026-06-02_120601_400.png Transformer架构最早由Google团队在2017年提出,论文《Attention is All You Need》,目前是大模型的主流架构。虽然Google发明了火种,但真正把它点燃并且引爆全世界的却是OpenAI。在2022年底,OpenAI推出了GPT-3.5, 他应该算是第一个真正达到可用级别的大模型了,仅仅几个月之后,在2023年3月,GPT-4推出了,其性能有了质的飞跃,标志着大模型进入了一个新的时代。可以说GPT系列就是AI浪潮的绝对鼻祖。不过如今早已不是只有OpenAI一家公司的独角戏了,比如阿里云也推出了自己的大模型,叫做通义千问。

1.2 LLM的本质

LLM本质就是一个特别庞大的数学函数,底层跑的全是矩阵运算,类似文字接龙游戏,通过输入文字,预测下一个文字。比如输入“今天天气不错”,LLM内部经过运算,它会预测下一个概率很高的文字是“所以”, 大模型吐出"所以"之后并不会停下来,它会把“所以”作为输入,继续预测下一个文字,如此往复,直到模型预测出一个完整的句子。就会输出一个 特殊结束的标识符,整个回答就算彻底结束,这样我们就拿到了大模型的完整回答:所以出去玩。
真正大模型接受的输入其实是数字,而不是文字,输出的也是数字,压根不认识人类写的文字。所有在大模型和人类之间,需要一个翻译层,把人类的文字翻译成大模型认识的数字,把大模型输出的数字翻译成人类可读的文字。这个翻译层 叫做Tokenizer,它负责编码和解码。编码阶段会将用户的输入拆分成一个一个的片段,这些片段叫做Token;然后将这些Token映射成数字,这些数字叫做Token ID。编码完成后会得到一个Token ID的列表,Tokenizer会将这个列表输入给大模型。大模型输出的也是一个Token ID的列表,Tokenizer会将这个列表送进模型, 模型在内部一顿运算后,最终输出一个Token ID,解码阶段不需要拆分,因为大模型每次只会吐出一个Token ID, 并没有好切分的,Tokenizer直接将Token ID映射成文字,这样我们就拿到了大模型的第一个Token,模型如果没有说完会继续 吐出第二个Token ID,后面的流程同理。所以Token是大模型处理文本的最小单位。

2. Token

一个Token可以是一个字,也可以是一个词。具体来说,Token的划分取决于所使用的Tokenizer。比如OpenAI的Tokenizer: https://platform.openai.com/tokenizerScreenShot_2026-06-03_002431_223.png 可以看到"命令"这个词被Tokenizer拆分成了两个Token:"命"和"令",而不是一个词一定就是一个Token, 而英文是不是一定就是一个Token呢? ScreenShot_2026-06-03_004130_250.png 有些符号也会被拆分成多个Token,比如下面家庭的Emoji符号:
ScreenShot_2026-06-03_005219_269.png 由于拆分后没有对应的显示字符,所以显示的时候都是问号。具体的token可以通过Token ID去查:
ScreenShot_2026-06-03_005429_168.png 所以Token和词并没有确定的关系,如果非要界定Token和词两者的关系的话,从宏观上来看,一个汉字≈1.5个Token, 一个Token≈0.75个英文单词. 40w个Token大概就是60到80w个汉字或30w个英文单词。其实底层大模型切分Token使用的是Byte Pair Encoding (BPE) 算法。这里就不深入探讨了。

3. Context

Context代表大模型每次处理任务时所接收到的信息总和。我们每次给大模型发送消息的时候,并不只会发我们的问题,客户端还会自动把你之前的整段对话历史找出来一起发过去,这样的话大模型每次都会看到完整的对话内容,所以它会 知道之前发生了什么。除了对话历史、用户问题,大模型自己输出的Token也会被追加到Context中,还有就是工具列表、System Prompt等信息。当然Context肯定是越大越好。

3.1 Context Window

也叫做上下文窗口,它代表Context能容纳的最大「Token数量」。Context Window为1w就代表模型最多能够处理1万个Token。目前主流的大模型都有着非常大的Context Window,比如OpenAI的GPT-5.4的Context Window为105W,Gemini3.1 Pro的Context Window为100W, Claude Opus4.6的Context Window为100W。

3.2 RAG

Context Window始终是一个固定大小,而RAG可以根据用户的问题去匹配相关的片段,只把相关的片段加入Context中,让大模型根据这几个片段来回答用户的问题,从而实现更灵活的Context控制。

4. Prompt

它是大模型接收的具体问题或指令,比如用户的问题:帮我写首诗。Prompt怎么写,直接决定了大模型的输出质量,因为这个问题太模糊了,大模型输出的可能是古诗、现代诗也可能是打油诗。一个好的Prompt应该尽量清晰、具体、明确。

4.1 Prompt Engineering

有个专门的领域叫做Prompt Engineering,专门研究如何写好的Prompt。Prompt Engineering曾经比较火,现在虽然不如以前,但是仍然是一个很重要的领域。原因有:第一就是门槛比较低,毕竟就是研究把话说明白,第二就是大模型的能力越来越强,即使提示词含糊不清,大模型也能大致理解你的意图。

4.2 Prompt分类

  1. User Prompt
    用户输入的内容,比如用户的问题、指令等,针对具体的任务。
  2. System Prompt 系统提示,比如大模型的角色设定、规则指令等,它是开发者在后台配置的,针对整个对话。用户是看不到的,但是会影响大模型的行为。
    比如:系统提示词是:你是一位耐心的数学老师。当学生问你数学问题时,不要直接给出答案,而是要一步一步引导学生思考,帮助他们理解解题思路。用户提示词:1+1=?。
    结果大模型输出:我们可以这样想,你手里有了个苹果,然后又拿了5个,现在一共有多少个呢?你可以数一数看。

5. Tool

5.1 Tool的由来

大模型一个明显的弱点:无法感知外界环境,比如天气、时间、地点等信息。为了弥补这个弱点,可以使用Tools。没有使用Tools大模型的回答可能就是:抱歉,我无法获取实时天气信息。我的知识库截止到2025年10月,无法提供当前的天气数据。
为什么会这样呢? 因为大模型本质还是一个文字接龙游戏,它的能力是根据训练数据来预测下一个词,它是没有办法去实时去查天气预报网站的。

5.2 Tool的本质

Tool本质是一个函数,大模型接收到用户输入后,会调用这个函数来获取结果。比如天气预报网站,大模型会调用这个网站的API来获取天气数据。有了它,大模型就可以回答天气相关的问题了。整个详细的调用流程如下:

  1. 涉及的角色:用户,大模型,平台,天气查询Tool。
    ai_2026-06-04_003431.png
  2. 各自的职责:
    • 大模型:选择工具,归纳总结。
    • 工具:查询天气。
    • 平台:串联流程。
      需要注意的是大模型无法直接调用工具,模型能做的仅仅输出一段文本,告诉平台使用哪个工具,最终还是由平台去调用工具。Tool的本质就是让大模型能够感知和影响外部环境。

6. MCP

6.1 MCP的由来

把工具接入到平台,平台才知道可用的工具列表,这一套接入的规范每个平台都不一样,如果是ChatGPT需要使用OpenAI的规范,如果是Claude需要使用Anthropic的规范,如果是Gemini需要使用Google的规范。同一个工具需要写三遍接入流程。MCP 的全称是叫做 Model Context Protocol, 它就是统一的工具接入规范,让不同的平台和工具能够互联互通。

7. Agent

按理来说大模型有了工具可以感知世界,而工具可以使用MCP方式来统一接入,但只是简单的工具调用。而使用Agent可以实现更复杂的调用逻辑,自主规划多个工具的使用顺序和方式,从而实现更复杂的任务。目前市面上有不少Agent产品, 比如Anthropic的Claude Code、、OpenAI的Codex\Google的Gemini CLI等, 使用的构建模式有两种: ReAct和Plan AndExecute,

8. Agent Skills

如果没有设置System Prompt的话,大模型就不知道规则和要求,每次向大模型提问,都要在User Prompt中都要发下规则和要求,就不方便了。这时可以使用Agent Skills来设定大模型的规则和要求,这样大模型就会根据Agent Skills来生成回答。

8.1 Agent Skills的内容

Agent Skills主要是一个SKILL.md文档,文档开头元数据层,是申明skill的name、description,其余的文档内容就是指令层,里面格式不限,主要写规则、要求、示例、调用工具、运行代码、引用资源等,这就是Agent Skill的结构了。比如在claude code中, Agent Skill都是存放在$User/skills目录下,需要注意的是SKILL.md需要存放在和这个skill同名的文件夹下。

8.2 Agent Skills的加载和使用

以Claude Code为例,每次启动Claude Code时,它就会自动读取文件夹下的SKILL.md文件名称和描述,不会读取SKILL.md的剩余内容,当用户提问和某个skill匹配时,就会读取SKILL.md文件的指令层。 输入/skills指令可以查看所有skill的名称:

shell
 ▐▛███▜▌   Claude Code v2.1.161
▝▜█████▛▘  deepseek-v4-pro[1m] · API Usage Billing
  ▘▘ ▝▝    /home/jack


 /skills

──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────  Skills
  14 skills · Space to cycle, Enter to save, / to search, t to sort, Esc to cancel

  ╭────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮ Search skills…    ╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯ 🔒 on         superpowers:brainstorming · plugin · ~80 tok · locked by plugin
    🔒 on         superpowers:dispatching-parallel-agents · plugin · ~50 tok · locked by plugin
    🔒 on         superpowers:executing-plans · plugin · ~40 tok · locked by plugin
    🔒 on         superpowers:finishing-a-development-branch · plugin · ~80 tok · locked by plugin
    🔒 on         superpowers:receiving-code-review · plugin · ~90 tok · locked by plugin
    🔒 on         superpowers:requesting-code-review · plugin · ~50 tok · locked by plugin
    🔒 on         superpowers:subagent-driven-development · plugin · ~40 tok · locked by plugin
    🔒 on         superpowers:systematic-debugging · plugin · ~40 tok · locked by plugin
    🔒 on         superpowers:test-driven-development · plugin · ~40 tok · locked by plugin
    🔒 on         superpowers:using-git-worktrees · plugin · ~80 tok · locked by plugin
    🔒 on         superpowers:using-superpowers · plugin · ~60 tok · locked by plugin
    🔒 on         superpowers:verification-before-completion · plugin · ~90 tok · locked by plugin
    🔒 on         superpowers:writing-plans · plugin · ~40 tok · locked by plugin
    🔒 on         superpowers:writing-skills · plugin · ~40 tok · locked by plugin