LLM专题综述

LLM 专题用于理解大语言模型为什么能生成文本、为什么会出错,以及部署和使用时要关心哪些工程约束。

主题流程图

主题边界

  • 普通使用者不需要先学训练细节,但要理解 Token、上下文、生成、幻觉、微调和部署差异。
  • 产品和工程落地时,重点是模型能力边界、成本、时延、输出可控性和评测。

知识树

  • 模型基础:语言模型、Transformer、预训练、指令微调、RLHF/RLAIF。
  • 推理机制:Token 生成、采样、上下文窗口、KV Cache、推理成本。
  • 能力边界:幻觉、数学/代码/长上下文、多模态。
  • 部署选型:API、本地模型、私有化、推理服务、监控。

阅读顺序

  1. 先读 Token、上下文和一次请求结构。
  2. 再读 Transformer、预训练和 GPT 类模型。
  3. 最后读部署、评测和成本优化。

常见误区

  • 以为模型参数越大产品越好。
  • 把训练知识和应用设计混在一起。
  • 忽略上下文、输出长度和工具 schema 带来的成本。

实战任务

  1. 比较同一任务在快模型和强模型上的效果、成本、时延。
  2. 把一个长 prompt 缩短 30%,观察输出质量变化。
  3. 写一份模型选型表:任务、质量、速度、成本、安全。

必读资料

后置阅读

  • 底层数学推导可后置;先掌握应用侧约束。