训练显存计算与优化

训练大模型时，显存是最关键的约束之一。本文拆解训练显存的四大组成部分，并介绍常见的优化手段。

Q：训练显存计算

来源：AI Infra / 抖音搜推架构一面（牛客网）

普通回答：训练显存包括模型参数、梯度和优化器状态。

更好的回答：

训练显存由四部分组成，以 Adam + FP16 混合精度训练为例：

1. 模型参数（Model Parameters）

2. 梯度（Gradients）

3. 优化器状态（Optimizer States）

4. 激活值（Activations）— 见下题详解

总结（不含激活值）：

举例：7B 模型（P = 7×10⁹）

优化手段：

ZeRO（DeepSpeed）：将参数/梯度/优化器状态切分到多卡
- ZeRO-1：切优化器状态 → 省 ~4×
- ZeRO-2：切优化器 + 梯度
- ZeRO-3：全切（参数也分片）
Offload：将优化器状态 offload 到 CPU 内存
梯度累积：减小单步 batch → 减少激活值显存

考察点：能否精确拆解每一项的来源和大小，以及对 ZeRO 等优化策略的理解。

来源：AI Infra / 抖音搜推架构一面（牛客网）

普通回答：激活值显存和 batch size、序列长度有关，通常比参数大。

更好的回答：

激活值是前向传播中每层的中间输出，需要保留到反向传播时计算梯度。

Transformer 单层激活值显存（FP16，不含 attention score）：

每层激活 ≈ seq_len × batch_size × hidden_dim × 约 10~14 × 2 bytes

其中 “10~14” 来自：

总激活值显存 = 单层 × num_layers

举例：LLaMA-7B（32 层，hidden=4096，seq_len=2048，batch=1，FP16）

关键特征：

优化手段：

考察点：激活值是训练显存中最容易被忽视但占比最大的部分，面试官想看你是否理解这个”隐形大户”。

本文有帮助吗？