← 返回博客
AI 学习笔记(二):核心元素
2026年4月16日·7 min read
AILLM工程实践
核心元素:LLM 与 AI Agent 的基础概念
1. Token
Token 是模型处理文本时使用的基本单位。它不严格等于"一个字"或"一个单词",而是文本被 tokenizer 切分后的片段。
- 直觉理解:模型不是直接按"句子"理解世界,而是在一串 token 上做预测
- 工程意义:token 数决定成本、延迟,以及上下文窗口是否会被占满
- 常见误区:英文 3 到 4 个字符一个 token、中文 1 到 2 个字一个 token,只能当粗略经验,不能当精确规则
2. Context Window(上下文窗口)
上下文窗口指模型一次调用中最多能看到的 token 范围,包括系统提示词、用户输入、历史对话、工具返回结果和模型输出。
- 直觉理解:它像模型当前这一次"临时能看到的工作记忆"
- 工程意义:上下文越长,不代表效果一定越好;无关信息太多会稀释关键指令,还会增加成本
- 常见误区:上下文窗口大,不等于模型真的"记住了全部内容"
3. Prompt
Prompt 是你发给模型的输入,不只是用户那一句话,还包括系统指令、角色设定、任务描述、约束条件、示例和上下文信息。
- 直觉理解:Prompt 本质上是在给模型定义"这次该怎么思考和输出"
- 工程意义:Prompt 设计决定输出结构、任务边界和稳定性,是 AI 应用开发中的核心接口
- 常见误区:Prompt 不是"写得越长越好",而是要清晰、边界明确、信息相关
4. Completion(生成结果)
Completion 指模型基于输入 token,逐步预测并生成后续 token 的过程和结果。
- 直觉理解:模型不是一次性想完整答案,而是一个 token 一个 token 往后接
- 工程意义:理解这一点后,就能明白为什么模型会中途跑偏、重复、截断,或在长输出中质量下降
- 常见误区:模型输出看起来像"推理后的答案",但底层仍然是序列生成
5. Sampling(采样)
采样是指模型在多个可能的下一个 token 中,按照概率分布选择输出结果的过程。
- 直觉理解:模型不是总选唯一答案,而是在"高概率候选"里做选择
- 工程意义:采样参数会影响输出的稳定性、发散性和创造性
- 常见误区:温度高不等于更聪明,只是更发散;温度低不等于更正确,只是更稳定
5.1 常见参数
- temperature:越高越发散,越低越保守
- top_p:限制采样时考虑的概率质量范围
6. Embedding(嵌入向量)
Embedding 是把文本、图片或其他数据映射成向量表示的方法,使语义相近的内容在向量空间里彼此靠近。
- 直觉理解:它不是"让模型回答问题",而是"让机器能计算语义相似度"
- 工程意义:检索增强生成(RAG)、语义搜索、知识库召回、相似内容匹配都依赖 embedding
- 常见误区:embedding 模型和生成模型不是一回事,前者偏检索表示,后者偏内容生成
7. Tool Calling(工具调用)
Tool Calling 指模型在生成过程中,按约定格式请求外部工具或函数,由程序执行后再把结果返回给模型继续处理。
- 直觉理解:模型负责"决定何时调用工具",程序负责"真正执行工具"
- 工程意义:这是 AI Agent 接入搜索、数据库、代码执行器、业务接口的核心机制
- 常见误区:模型不会真的自己执行函数;真正执行的是外部系统
8. Memory(记忆)
在 AI Agent 中,记忆通常不是模型天然长期保存的能力,而是工程上通过对话历史、摘要、数据库、向量库等方式实现的信息保留机制。
- 直觉理解:Agent 的"记忆"更多是系统帮它存和取,而不是模型自己长期记住
- 工程意义:决定 Agent 能否跨轮对话保持一致性,能否记住用户偏好、任务进度和历史结论
- 常见误区:长上下文不等于长期记忆;把所有历史原样塞回去通常不是好方案
9. Workflow(工作流)
Workflow 指围绕模型组织的一系列步骤,例如输入预处理、Prompt 构造、知识检索、工具调用、结果校验、失败重试和最终输出。
- 直觉理解:真正的 AI 应用不是"只问模型一句话",而是"模型嵌在一条工作流里"
- 工程意义:稳定性、可控性、可观测性,更多来自工作流设计,而不只是模型本身
- 常见误区:模型能力强,不代表可以省掉校验、兜底和监控
10. 一个工程上的总判断
如果把传统程序看成"确定性逻辑系统",那么 LLM 更像"概率性生成引擎";而 AI Agent 则是在这个引擎外面,再包一层工具、记忆、工作流和校验机制。
结论:做 AI Agent,不是只会写 Prompt,而是要把模型、工具、上下文、记忆和防护层一起设计成一个完整系统。