cycle positionDRAM 上行周期 Q14 · 已超历史最长 12Q · 越线运行
loading prices…
17 theses
← 返回首页 A3 · A · 需求 · priority high

Reasoning 模型让 HBM 容量需求结构性上一台阶 (但 token 口径需精细化)

当前档位
YES
timeline updated Thu May 07 2026 00:00:00 GMT+0000 (Coordinated Universal Time) · today created Thu May 07 2026 00:00:00 GMT+0000 (Coordinated Universal Time)
⚠ 概率档位更新仅在桌面端开放(≥1024px 非触摸设备)。慢思考保护。

📊 跟踪指标 · 命题指示要监控的关键数字

5 项
Reasoning model API 占比
<30% (估)
目标/阈值: >30% within 12mo
各家披露
商用 LLM 平均输出 token 长度
1-5K
目标/阈值: 2027 ≥5K
模型 benchmark
单 query KV cache 占用 (200K context)
~10GB
目标/阈值: 50GB+
Llama-70B 测算
主流模型 max context
支持
200K-1M
OpenAI/Anthropic/Google
Reasoning vs 非 reasoning 推理成本
关注
5-50x
OpenAI o3 数据

✓ 命题成立条件

4 项
  • 2026-2027 年至少一家头部模型公司(OpenAI、Anthropic、Google)的 reasoning model API 调用量超过非 reasoning model
  • 商用 LLM 平均输出 token 长度持续增加,2027 年达到 5,000+ tokens 平均值
  • 单 query 的 KV cache 占用从当前 ~10GB (Llama-70B 32K context) 增加到 50GB+ (200K+ context)
  • HBM 容量(GB) 需求增速持续高于 HBM 带宽(TB/s)需求增速

桌面端点击图标可标 ✓ / ✗ / ○,写入 D1 + 决策日志

✗ 命题失败条件

4 项 monitor
  • reasoning model 因为成本问题难以普及,API 占比维持在 10% 以下
  • 出现高效压缩技术(类似 RWKV、Mamba)使 KV cache 不再随 context 线性增长
  • 蒸馏 + 边缘推理替代云端 reasoning,需求曲线下移
  • HBM 容量提升速度赶上需求,价格不再受容量约束驱动

▲ 当前支撑证据

5 条
  • OpenAI o3 推理时单次回答 token 输出 5-50x 于 GPT-4
  • Anthropic Claude reasoning 在数学/编程 benchmark 上显著领先,需求加速
  • 主要 LLM 公司均已发布或将发布 reasoning 系列
  • 200K+ context 已成主流,部分模型支持 1M+ context
  • Sequoia 等机构追踪 reasoning 占比快速上升

▼ 当前反对证据

4 条
  • Reasoning model 推理成本是非 reasoning 的 5-50x,商业化挑战
  • 部分应用场景(简单 chat、客服)不需要 reasoning
  • 算法优化(如 speculative decoding、KV cache 压缩) 可能降低 HBM 容量压力
  • Edge inference 趋势可能分流部分简单任务

档位演化

2026-05-07 · YES2026-05-07 · YES
  1. 2026-05-07YESToken 口径精细化: 区分 visible output / persistent KV / generation length, 承认存在多个对冲机制
  2. 2026-05-07YES初始建立。reasoning 工作负载明显增加, 但商业化主导地位还在早期

命题主体

A3 · Reasoning 模型普及让 HBM 容量需求结构性上一台阶 (但 token 口径需精细化)

命题表述

OpenAI o-series、Anthropic reasoning Claude、Gemini Deep Thinking 这类 test-time compute 模型, 显著增加 HBM 容量(而非仅带宽)需求。但需要精细区分:

  • 可见输出 tokens: 非 reasoning 模型 ~500 tokens / reasoning 模型 ~5,000-50,000 tokens (思维链在内)
  • 持续 KV cache 内存占用: 与 batch size, context length, model 大小, KV cache 压缩技术(GQA, MQA, paged attention, prefix caching)综合相关
  • 每 query KV cache 需求: 当前 200K context Llama-70B 单 query ~10GB, 1M context 50GB+

不能简单把"输出 50,000 tokens" → "HBM 容量需求 100x"。两者关系受多个对冲因素调节: speculative decoding、KV cache compression、prefix caching、MoE routing 都可能在某种程度上缓解 HBM 容量压力。

但即使考虑所有缓解因素, reasoning workload 占比上升仍然会显著提升 HBM 容量需求 — 这是 A1、A2 命题的关键驱动机制。

概率档位说明: v1 给的是 yes, v2 仍维持 yes 但更靠近 yes / neutral 边界 — 主要不确定性在于 KV compression 等技术能在多大程度上缓解容量压力。

概率档位历史

日期 档位 原因
2026-05-07 yes (initial) 初始建立。reasoning 工作负载明显增加, 但商业化主导地位还在早期
2026-05-07 yes (revised, leaning to neutral) Token 口径精细化: 区分 visible output / persistent KV / generation length, 承认存在多个对冲机制

关联机制

  • reasoning_workload: Reasoning 模型作为新的工作负载类型
  • kv_cache_scaling: KV cache 与 context length 和 batch size 的关系
  • test_time_compute: 推理时计算的范式转变

关联指标

  • reasoning_workload_share: Reasoning model 在 LLM API 调用中占比 (估算)
  • avg_context_length: 商用 LLM 平均 context 长度
  • kv_cache_per_query: 单次 query 平均 KV cache 占用

交易表达

  • long_hynix_leaps: HBM 容量需求超预期受益最大
  • long_hbm_capacity_thesis: 偏好高容量 HBM 产品的设备/制程提供商

复盘锚点

每季度跟踪 OpenAI / Anthropic / Google 公开披露的 reasoning model 使用占比。如果占比 12 个月内未超过 30%,reconsider 命题档位。


修订说明 (v2 vs v1)

维度 v1 v2
Token 口径 "输出 50,000 tokens" 区分 visible output / persistent KV / generation length
对冲机制 未提 显式补充 KV compression / GQA / prefix caching / speculative decoding
概率档位 yes yes (leaning neutral)

专家反馈采纳: 完全采纳 — "50,000 tokens 不能直接等同于持久 KV cache。要拆成 average generated tokens、context length、batch size、KV compression、prefix caching、MoE routing、speculative decoding"。

关联命题