档位演化
- 2026-05-07STRONG-YES公式精细化: 区分 prefill vs decode, 补充 NVLink / CPU-GPU coherency / storage 等并行瓶颈
- 2026-05-07STRONG-YES初始建立。物理事实, 业界共识
桌面端点击图标可标 ✓ / ✗ / ○,写入 D1 + 决策日志
LLM inference 包含两个阶段, 在 HBM 受限程度上完全不同:
具体公式简化为: Decode tokens/sec/GPU ≈ HBM_BW / (model_size + KV_cache_per_token × batch)。
注意还有多个非 HBM 瓶颈同时存在:
但只要主流 dense transformer 在 decode 阶段仍是 memory-bound, HBM 的关键性就成立。NVIDIA 自己在 Vera Rubin 定位中明确把 reasoning + memory bandwidth + KV cache 作为核心瓶颈。
| 日期 | 档位 | 原因 |
|---|---|---|
| 2026-05-07 | strong-yes (initial) | 初始建立。物理事实, 业界共识 |
| 2026-05-07 | strong-yes (revised) | 公式精细化: 区分 prefill vs decode, 补充 NVLink / CPU-GPU coherency / storage 等并行瓶颈 |
memory_bound_inference: LLM inference 是 memory-bound 的物理事实roofline_model: 计算 vs 内存带宽的性能上限模型hbm_bandwidth_per_gpu: NVIDIA 各代 GPU 的 HBM 带宽 (TB/s)hbm_capacity_per_gpu: NVIDIA 各代 GPU 的 HBM 容量 (GB)long_hbm_thesis_general: 整个 HBM 命题的最深层物理基础如果出现任何新架构 / 新算法的实质突破改变 memory-compute 关系,这个命题需要重新审视。每半年扫描一次新 paper 和 architecture announcement。
| 维度 | v1 | v2 |
|---|---|---|
| 命题表述 | 整个 inference 受 HBM 约束 | 区分 prefill (compute-bound) / decode (memory-bound) |
| 公式适用范围 | 通用 | 限定 decode 阶段, 主流 dense transformer |
| 并行瓶颈 | 未提 | 补充 NVLink / CPU-GPU coherency / storage / scheduler |
专家反馈采纳: 完全采纳 — "decode 阶段常受 HBM bandwidth/容量约束, prefill 更偏 compute-bound, MoE/多 GPU 推理还会受 NVLink、network、scheduler、KV offload 约束"。