zero2algo

Module 09

AI Infra

面向 AI 基础设施岗位（推理优化、训练框架、部署工程）的系统知识，覆盖 KV Cache、量化、编译优化、显存计算、C++ 系统编程等高频面试考点。适合有深度学习基础、准备转向或兼顾 Infra 方向的同学。

这部分会解决什么

推理加速全链路：KV Cache、量化、TVM、MoE、Attention 变体
推理服务：FlashAttention、PagedAttention、Chunk Prefill、Continuous Batching、vLLM/SGLang
分布式：TP/PP/EP/SP 并行、ZeRO、通信算子与优化
训练系统：显存拆解、混合精度、并行策略
C++ 底层：内存管理、智能指针、OOP、移动语义
CUDA / GPU：硬件架构、内存模型、GEMM/Reduce 优化、Triton、编译流程
模型架构：Transformer 结构、BN/LN/RMSNorm、RoPE、参数量计算、DeepSeek V3

建议阅读顺序

当前文章

文章	作用
模型架构基础	Transformer 结构、BN/LN/RMSNorm、RoPE、参数计算、DeepSeek V3、Decoder-only
推理加速全景：从 KV Cache 到部署	KV Cache、推理加速、TVM、MoE、Attention 变体、MLA 权重吸收、PD 分离
量化方法与精度保障	INT8/INT4/FP8 量化、SmoothQuant/AWQ/GPTQ、剪枝稀疏化、精度保障
训练显存计算与优化	参数/梯度/优化器/激活值显存拆解、混合精度、重计算
C++ 系统编程高频题	内存管理、智能指针、OOP/虚函数、STL、移动语义、进程线程、GIL、虚拟内存
PyTorch 性能优化机制	Python→C++ 调度、torch.compile、算子注册、tensor API、算子融合
CUDA 编程与 GPU 架构	GPU/SM 架构、GEMM/Reduce、Bank Conflict、Warp Shuffle、Online Softmax、Stream、DMA/RDMA
推理服务框架与调度	FlashAttention、PagedAttention、Chunk Prefill、Continuous Batching、Speculative Decoding、AF分离
分布式训练与推理	TP/PP/EP/SP、ZeRO、DualPipe、RL训练优化、容错、通信优化

本文有帮助吗？

| GitHub 留言