LLM精读笔记

本页汇总「LLM」主题下的 60 篇精读卡，适合按编号顺序阅读，也可以通过左侧搜索直达具体主题。

1.0 LLM资料1.0 LLM资料 [同步引用内容已省略] 大模型本地部署教程 <table <colgroup <col/ <col/ </colgroup <tbody <tr <td 基于C... 1.1 文本预处理1.1 文本预处理提示文本预处理是自然语言处理（NLP）中的基础且关键步骤，它将原始的非结构化文本数据转化为适合机器学习模型处理的格式。本文将系统介绍文本预处理的三大核心环节... 1.11 从零开始的大语言模型教程1.11 从零开始的大语言模型教程本项目是一个系统性的 LLM 学习教程，将从 NLP 的基本研究方法出发，根据 LLM 的思路及原理逐层深入，依次为读者剖析 LLM 的架构基础... 1.2文本表示方法1.2文本表示方法提示文本表示是自然语言处理（NLP）中的基础任务，它将非结构化的文本数据转化为计算机可以处理的数值形式。本文将系统介绍 NLP 中常用的文本表示方法，从传统... 1.3 大模型（LLM）部署1.3 大模型（LLM）部署内容状态这篇资料当前只有标题、目录、附件占位或极少量文字，不能当作完整精读正文使用。处理原则：不根据标题扩写，不伪造正文。如果它是索引型资料，... 1.3 文本分类1.3 文本分类提示文本分类(Text Classification)是自然语言处理(NLP)中最基础也是最重要的任务之一。它的目标是将给定的文本文档自动归类到一个或多个预定义... 1.8详解：DeepSeek深度推理模型1.8详解：DeepSeek深度推理模型内容状态这篇资料当前只有标题、目录、附件占位或极少量文字，不能当作完整精读正文使用。处理原则：不根据标题扩写，不伪造正文。如果它是... 2.2 命名实体识别（NER）2.2 命名实体识别（NER）提示命名实体识别（Named Entity Recognition，简称 NER）是自然语言处理（NLP）中的一项基础任务，它的目标是识别文本中具... 2.3 关系抽取2.3 关系抽取关系抽取(Relation Extraction)是自然语言处理(NLP)中的一个重要任务，旨在从非结构化文本中识别实体之间的语义关系。简单来说，就是从句子中找出... 2.4 NLP 文本相似度计算2.4 NLP 文本相似度计算文本相似度计算是自然语言处理(NLP)中的一项基础任务，旨在量化两个文本片段之间的相似程度。这项技术在信息检索、问答系统、抄袭检测、推荐系统等多个领... 3.3 Transformer 架构3.3 Transformer 架构 Transformer 架构图左边为编码器，右边为解码器。 [图示已省略] 提示输入处理（底部） Embeddings/Projectio... 3.4 序列到序列模型3.4 序列到序列模型序列到序列(Sequence to Sequence, Seq2Seq)模型是自然语言处理(NLP)中的一种重要架构，专门用于将一个序列转换为另一个序列的任... 4.1 预训练模型4.1 预训练模型预训练模型（Pre trained Models）是自然语言处理（NLP）领域近年来最重要的技术突破之一。这类模型通过在大规模文本数据上进行预先训练，学习通用的... 4.3 生成式预训练模型4.3 生成式预训练模型生成式预训练模型是一类通过大规模无监督学习从文本数据中获取通用语言知识，并能够生成连贯、合理文本的深度学习模型。这类模型的核心特点是：生成能力：能够根据... 4.4 多模态预训练模型4.4 多模态预训练模型多模态预训练模型（Multimodal Pre trained Models）是指能够同时处理和理解多种数据模态（如文本、图像、音频等）的深度学习模型... Hugging Face LoRA 微调Hugging Face LoRA 微调提示 Hugging Face 的 Transformers 库结合 PEFT（Parameter Efficient Fine Tuni... KV 缓存KV 缓存 [图示已省略] 提示没有 KV Cache，LLM 推理速度会慢 100 倍。它是现代推理引擎的核心加速机制，也是工程优化的主战场。 KV Cache 是什么？ KV... LLM 推理与调度实操LLM 推理与调度实操项目背景与架构说明提示在本地无 GPU 的 Mac Mini M4 上，如何通过 Orbstack 的本地 Kubernetes 环境部署一个大语言模型... LLM101n-CN（共建中）LLM101n CN（共建中） [同步引用内容已省略] <table <colgroup <col/ <col/ <col/ <col/ <col/ <col/ </colgrou... LLM大模型LLM大模型 [同步引用内容已省略] MCP专栏 <table <colgroup <col/ <col/ </colgroup <tbody <tr <td MCP是啥，技术原理... NLP 基础知识库NLP 基础知识库 NLP 教程 [图示已省略] 自然语言处理(Natural Language Processing, NLP)是人工智能和语言学的一个交叉领域，致力于让计算机能... Transformer资料Transformer资料 [图示已省略] Transformer 是什么？ Transformer 是所有现代大语言模型（LLM）的基础架构，就像 Kubernetes 之于云原... 【LLM】Agentic Workflow的四种常见思路【LLM】Agentic Workflow的四种常见思路提示 Reflection 和 Tool Use 属于比较经典且相对已经广泛使用的方式， Planning 和 Multi... 一站式LLM底层技术原理入门指南一站式LLM底层技术原理入门指南 [图示已省略] 正文提示 5.10更新：最初版本未更新的Prompting、InstructGPT、Chain of Thoughts、涌现现均... 世界模型与空间智能世界模型与空间智能提示世界模型让 AI 不再局限于语言处理，而是具备理解、推演和操作真实世界的能力，这是未来十年智能系统的核心突破。为什么语言智能难以迈向空间智能当前主流的... 人类反馈-RL强化学习人类反馈 RL强化学习 [图示已省略] 提示 RLHF 不是让模型变聪明，而是让它更懂人、更安全、更可控。它是大模型“对齐”的关键。为什么需要 RLHF？人类反馈强化学习（RL... 向量与文本表示向量与文本表示提示向量（Embedding）让 AI 能“理解”文本语义，是现代 RAG 检索的数学基石。在 RAG（Retrieval Augmented Generati... 大模型工作原理大模型工作原理 [图示已省略] 模型训练与推理：学习和应用在理解大模型（Large Language Model）的整体流程时，训练、微调和推理三者之间的关系尤为重要。下图为训... 大模型应用大模型应用 7.1 LLM 的评测近年来，随着人工智能领域的迅猛发展，大规模预训练语言模型（简称大模型）成为了推动技术进步的核心力量。这些大模型在自然语言处理等任务中展现出了令人... 大模型技术全景大模型技术全景 [图示已省略] 提示 AI 大模型正在成为云原生工程师的“第二引擎”，重塑架构与协作范式。 AI 大语言模型（LLM）正在成为云原生体系的第二引擎。过去十年，云原生... 工程实体工程实体 AI 作为工程实体 AI 工程实体的出现，正在重塑软件开发的边界，让人机协作成为主流工程范式。提示现代软件工程正在从“以人类工程师为中心的生产线”向“人机协作的多主体... 开源模型结构与微调实战开源模型结构与微调实战提示开源大模型不仅仅是“能看源码”，更是“可加载、可训练、可微调”的智能资产。理解其结构与微调流程，是 AI 时代开发者的必备能力。引言在 AI 时代... 微调微调 [图示已省略] 微调（Fine Tuning）：让模型适应你的任务与风格大语言模型（LLM, Large Language Model）的能力来自“预训练（Pre trai... 技术路径与挑战技术路径与挑战提示 AGI 的实现之路充满未知与争议。技术突破虽令人振奋，但真正的智能尚远未触及。我们正站在变革的门槛，既要敬畏复杂性，也要警惕盲目乐观。实现通用人工智能（AG... 推理加速推理加速推理加速：为什么 vLLM 比 HuggingFace 快这么多？ vLLM 把 LLM 推理当成资源调度问题来做，而不是“算一次就完事的前向传播”。 LLM 推理的核心... 智谱 AI技术文档智谱 AI技术文档 [同步引用内容已省略] [画板/结构图已省略，必要结构图见流程图目录] 自 2019 年成立以来，智谱 AI 致力于大模型技术的研究和推广工作。自 2020 年... 本地推理服务本地推理服务 [图示已省略] 使用 vLLM 部署本地推理服务本地大模型推理不再遥不可及，vLLM 让你的 Mac 也能拥有“专属 GPT”，高效、安全、完全自主。注意提示 ... 本地部署大模型以及搭建个人知识库本地部署大模型以及搭建个人知识库一、引言提示大家好，我是 @Jake ，一个致力使用AI工具将自己打造为超级个体产品经理。目前沉浸于AI Agent研究中无法自拔今天给大... 概述概述提示没有治理体系，AI 就无法安全地规模化落地。 AI 治理体系是一套用于管理算力、数据、模型与风险的系统化控制框架。其目标是让 AI 系统在组织内部能够被配置、被调... 模型概览模型概览提示开源大语言模型（LLM, Large Language Model）日新月异，工程师选型不应只看“谁最强”，而要关注“谁最适合业务场景”。大模型生态与主流模型概览... 模型评估模型评估提示 LLM 评估没有“银弹”，但方法的选择决定了你能看到的世界。本文将带你拆解主流评估范式，理解背后的逻辑与局限。理解 LLM 评估的四大主流方法在实际工作中，如何... 模型选型模型选型提示模型选型的核心不是参数量或榜单，而是如何结合实际需求、资源和许可，选出最适合你的业务场景的方案。模型选择的基本原则大模型选型没有绝对“最优解”，只有最适合应用场... 第一章 NLP 基础概念第一章 NLP 基础概念自然语言处理（Natural Language Processing，NLP）作为人工智能领域的一个重要分支，旨在使计算机能够理解和处理人类语言，实现人机... 第三章预训练语言模型第三章预训练语言模型 3.1 Encoder only PLM 在上一章，我们详细讲解了给 NLP 领域带来巨大变革注意力机制以及使用注意力机制搭建的模型 Transformer... 第九章：缩放定律（scaling laws）第九章：缩放定律（scaling laws） 9.1 为何我们要关注缩放定律？缩放定律（Scaling Laws）的核心价值在于它提供了一种高效、可预测的工程范式，用以指导大规模... 第二章 Transformer 架构第二章 Transformer 架构 2.1 注意力机制 2.1.1 什么是注意力机制随着 NLP 从统计机器学习向深度学习迈进，作为 NLP 核心问题的文本表示方法也逐渐从统计... 第二章：接入国内大模型第二章：接入国内大模型 2.1 为什么要选择国内大模型使用国内大模型有很多优势，特别适合中国用户。本文将从多个维度详细分析为什么选择国内模型。一、访问速度优势国内模型服务器部... 第五章动手搭建大模型第五章动手搭建大模型 5.1 动手实现一个 LLaMA2 大模型 Meta（原Facebook）于2023年2月发布第一款基于Transformer结构的大型语言模型LLaMA，... 第八章：分布式训练第八章：分布式训练今天的重点将完全围绕跨机器的并行性展开。我们的目标是从优化单个GPU的吞吐量，转向理解训练超大规模模型所需的复杂性和细节。 8.1 LLM网络的基础知识 8.1... 第六章大模型训练流程实践第六章大模型训练流程实践 6.1 模型预训练在上一章，我们逐步拆解了 LLM 的模型结构及训练过程，从零手写实现了 LLaMA 模型结构及 Pretrain、SFT 全流程，更... 第十一章：数据工程第十一章：数据工程在前面的课程中，讨论的是在训练数据已经给定的前提下，如何通过架构设计、优化方法、分词技术和规模扩展来训练更强的模型；而从这一讲开始，我们将转向一个更根本的问题：... 第十三章：大模型的基本训练流程第十三章：大模型的基本训练流程经过之前的章节，我们基本掌握了模型的结构，pytorch和如何推理等等，在这节课我们重点介绍一下模型的训练过程。主要介绍大语言模型（LLM）的训练过... 第十二章：评估与基准测试第十二章：评估与基准测试评估的核心问题是给定一个固定的模型，它到底有多“好”？这实则是一个深刻且复杂的系统性工程。本章将从你所见的表象出发，深入剖析评估的本质、方法、挑战与陷阱... 第四章大语言模型第四章大语言模型 4.2 如何训练一个 LLM 在上一节，我们分析了 LLM 的定义及其特有的强大能力，通过更大规模的参数和海量的训练语料获得远超传统预训练模型的涌现能力，展现出... 第四章：文本处理与创作第四章：文本处理与创作 4.1 文案生成文案生成是 Claude Code 最常用的功能之一，无论是产品宣传、广告创意还是社交媒体内容，它都能帮你快速生成高质量的文案。产品描述... 第四章：语言模型架构和训练的技术细节第四章：语言模型架构和训练的技术细节 4.1 快速回顾标准的Transformer架构(如果熟悉transformer架构可以跳到标题二开始) transformer模型的起源可以... 适合小白的Llama3部署和微调教程适合小白的Llama3部署和微调教程本文的核心代码全部参考如下开源项目： GitHub datawhalechina/self llm: 《开源大模型食用指南》基于 Linux ... 部署与性能优化部署与性能优化 vLLM 部署与性能优化完整指南（Kubernetes 下部署 Qwen/Ollama 模型 & RAG 集成） vLLM 正在重塑大模型推理服务的生产范式，让本地... 部署指南部署指南部署指南提示 LangChain 智能体支持本地和云端多种部署方式，结合官方工具与云原生能力，可实现高效、可扩展的生产级部署。本文梳理常见部署流程与注意事项，助力智能体... 预训练预训练 [图示已省略] 提示只有理解了预训练，才能真正明白大模型“聪明”的底层逻辑。预训练：让模型“懂世界”的阶段预训练（Pre training, Pre training...