RAG专题综述

RAG 的核心不是“把文档丢给模型”,而是让模型在回答前拿到正确、足够、可追溯的证据。

主题流程图

主题边界

  • 知识稳定且可以直接写进 Prompt 时,不必上 RAG。
  • 资料多、更新快、权限复杂或需要引用时,应考虑 RAG。
  • RAG 不能替代事实校验;它只提高可追溯性和召回概率。

知识树

  • 知识源:文档、网页、表格、FAQ、代码、数据库。
  • 处理:清洗、切片、metadata、Embedding、索引。
  • 检索:关键词、向量、混合检索、过滤、重排。
  • 生成:上下文拼装、冲突处理、引用展示。
  • 评测:Recall@K、Faithfulness、Answer Correctness、Latency、Cost。

阅读顺序

  1. 先读 RAG 流程图,明确文档侧和问题侧两条链路。
  2. 再读切片、Embedding、Rerank、引用和评测。
  3. 最后用业务资料做 20 条问答集验证,而不是只看 demo。

常见误区

  • 切片太小导致片段失去语义;切片太大导致召回噪声。
  • 只用向量检索,漏掉产品名、编号、人名等精确词。
  • 没有 metadata 和权限过滤,用户可能看到不该看的资料。
  • 没有引用,无法判断答案来自资料还是模型编造。

实战任务

  1. 选 20 个真实问题,标注应该命中的资料片段。
  2. 对比 BM25、向量和混合检索的召回差异。
  3. 设计一版回答模板:结论、依据、引用、无法确定项。

必读资料

后置阅读

  • GraphRAG、Agentic RAG 适合在基础检索评测稳定后再读。