Module 09

AI Infra

面向 AI 基础设施岗位(推理优化、训练框架、部署工程)的系统知识,覆盖 KV Cache、量化、编译优化、显存计算、C++ 系统编程等高频面试考点。适合有深度学习基础、准备转向或兼顾 Infra 方向的同学。

这部分会解决什么

  • 推理加速全链路:KV Cache、量化、TVM、MoE、Attention 变体
  • 推理服务:FlashAttention、PagedAttention、Chunk Prefill、Continuous Batching、vLLM/SGLang
  • 分布式:TP/PP/EP/SP 并行、ZeRO、通信算子与优化
  • 训练系统:显存拆解、混合精度、并行策略
  • C++ 底层:内存管理、智能指针、OOP、移动语义
  • CUDA / GPU:硬件架构、内存模型、GEMM/Reduce 优化、Triton、编译流程
  • 模型架构:Transformer 结构、BN/LN/RMSNorm、RoPE、参数量计算、DeepSeek V3

建议阅读顺序

  1. 模型架构基础
  2. 推理加速全景:从 KV Cache 到部署
  3. 量化方法与精度保障
  4. 训练显存计算与优化
  5. C++ 系统编程高频题
  6. PyTorch 性能优化机制
  7. CUDA 编程与 GPU 架构
  8. 推理服务框架与调度
  9. 分布式训练与推理

当前文章

文章 作用
模型架构基础 Transformer 结构、BN/LN/RMSNorm、RoPE、参数计算、DeepSeek V3、Decoder-only
推理加速全景:从 KV Cache 到部署 KV Cache、推理加速、TVM、MoE、Attention 变体、MLA 权重吸收、PD 分离
量化方法与精度保障 INT8/INT4/FP8 量化、SmoothQuant/AWQ/GPTQ、剪枝稀疏化、精度保障
训练显存计算与优化 参数/梯度/优化器/激活值显存拆解、混合精度、重计算
C++ 系统编程高频题 内存管理、智能指针、OOP/虚函数、STL、移动语义、进程线程、GIL、虚拟内存
PyTorch 性能优化机制 Python→C++ 调度、torch.compile、算子注册、tensor API、算子融合
CUDA 编程与 GPU 架构 GPU/SM 架构、GEMM/Reduce、Bank Conflict、Warp Shuffle、Online Softmax、Stream、DMA/RDMA
推理服务框架与调度 FlashAttention、PagedAttention、Chunk Prefill、Continuous Batching、Speculative Decoding、AF分离
分布式训练与推理 TP/PP/EP/SP、ZeRO、DualPipe、RL训练优化、容错、通信优化