Deploy 知识库共建

[同步引用内容已省略]

章节任务ID小节描述
基础篇
模型部署基础Deploy001模型推理什么是模型推理,和训练的区别,如何使用最简单的torch推理一个模型
Deploy002模型部署选择其他框架对模型进行推理,简单介绍下常见的推理框架 ONNX OpenVINO TensorRT
Deploy003模型量化 解释最基础的模型量化知识,模型量化公式等理论知识解析
大模型架构详解Deploy004矩阵乘法知识讲解+最简单Py代码
Deploy005位置编码RoPE为主
Deploy006NormLayerNorm + RmsNorm
Deploy007AttentionAttention
Deploy008激活函数Gelu Relu SwiGelu
Deploy009解码相关topk,topp,beam search
大模型部署框架解析Deploy010vLLM详细讲讲论文可以
Deploy011TRT-LLMnv有什么优化?
Deploy012LMDeploy推理速度上的优势
简单的CUDADeploy013CUDA 编程模型简介thread wrap block
Deploy014CUDA 内存模型简介主存,共享内存,寄存器
Deploy015CUDA bank conflict是什么 哪里会有 如何减弱 bank conflict
Deploy016CUDA 向量化访存如何加速数据传递
Deploy017CUDA 共享内存为什么需要共享内存。共享内存应用的场景
Deploy018CUDA 计算资源Tensorcore调用
进阶篇
用cuda和Triton写大模型Deploy019Triton简介
Deploy020cuda/Triton 写一个简单的量化层,激活函数
Deploy021cuda/Triton 写一个LayerNorm/RmsNorm
Deploy022cuda/Triton 写一个RoPE
Deploy023用cublas写一个矩阵乘法
大模型量化Deploy024量化简析如何写一个量化层,如何插入量化层?如何插入解量化层.主流的量化方法 w8a8/w4a16。如何选择量化方法
Deploy025w8a8如何融合量化算子 认识int8矩阵乘法 smoothquant 如何调用tensorcore加速你的int8矩阵乘法
Deploy026w4a16整体流程 awq 快速反量化 如何为了应用tensorcore对数据进行特殊排布
Deploy027kvcache为什么要对kvcache做量化 int8 kvcache量化 算子实现 int4 kvcache量化
底层加速Deploy028Flash attn1 2 3 decoding
Deploy029GQA MHA MLA
Deploy030矩阵乘法合并
Deploy031Paged attention
Deploy032Group gemm
系统层面加速Deploy033Contiguous batching
Deploy034投机解码
Deploy035Prefix cache
  1. 进阶之大模型底层加速方法

    • qkv矩阵乘法的合并
    • (qkv矩阵乘法和rope的合并 这个可能比较难 这么写的人不多
    • Flash attn 1
    • Flash attn 2 3
    • Flash decoding and ++
    • GQA MHA MLA
    • Paged attention
    • (针对MoE的 Group Gemm 估计这个也会找不到人写
  2. 大模型系统层面加速方法

    • Contiguous batching
    • 投机解码
    • Medusa
    • Prefix cache