阅读清单
第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复
项目第三模块(学弟方向)调研清单——KV cache / 向量库容错、冗余编码、检查点优化、故障检测
第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复
项目第三模块研究内容:面向长记忆数据及推理关键状态数据,研究低成本容错、冗余保护与故障恢复机制,降低传统多副本的资源开销,提高系统的可靠性与扩展能力。
⚠️ 学术界这块几乎空白——大部分容错文献集中在训练 checkpoint,**生产推理状态(KV pool / 向量库 / agent 长记忆)**的容错研究极少。这正是本项目最大的学术机会点。
阅读优先级
🔥 = 必读 | ⭐ = 重要 | ◯ = 选读
A. 训练侧 Checkpoint(成熟领域,学习经验)
| 优先级 | 系统 | 出处 | 关键 |
|---|---|---|---|
| 🔥 | CheckFreq | FAST 2021 | Checkpoint 频率 vs 容错代价 trade-off,经典建模 |
| 🔥 | Gemini | SOSP 2023 | 内存 + RDMA 复制 checkpoint,大幅降低 stall |
| ⭐ | Bamboo | NSDI 2023 | 弹性流水线,冗余前向 stage 替代纯 checkpoint |
| ⭐ | Oobleck | SOSP 2023 | 异构容错训练,多套 pipeline plan 互为备份 |
| ⭐ | ReCycle | SOSP 2024 | 流水训练故障恢复,微批级别重路由 |
| ◯ | Varuna | EuroSys 2022 | 大规模弹性训练 |
| ◯ | Nebula(MS internal) | 工程 | 流式 checkpoint 写远端 |
B. 远端内存 / 分离式系统的容错(直接技术基础)
| 优先级 | 系统 | 出处 | 关键 |
|---|---|---|---|
| 🔥 | Carbink | OSDI 2022 | 远端内存 EC(纠删码)替代多副本,3× 容量 |
| 🔥 | Hydra | NSDI 2022 | 低延迟 EC for far memory,纠删读延迟优化 |
| ⭐ | InfiniSwap | NSDI 2017 | 远端内存 swap 框架(已在模块十三) |
| ⭐ | DRAGON / DiME | 多篇 | RDMA 远端内存 EC 容错 |
| ⭐ | FaRM 副本协议 | NSDI 2014 | RDMA 副本一致性(已在模块十三) |
| ◯ | Pelikan / RAMP | 2018-2020 | 内存 KV 系统的容错经验 |
🧠 关键洞察:EC 替代副本 是这个项目”低成本”卖点的最直接技术路径——3 副本变 1.3-1.5× 副本(EC),容量节省 ~50%,代价是写入和恢复路径变复杂。
C. AI 训练框架的弹性 / 容错(成熟工程)
| 优先级 | 系统 | 出处 | 关键 |
|---|---|---|---|
| ⭐ | PyTorch Distributed Checkpoint | 工程 | 分布式 ckpt 写,默认多副本 |
| ⭐ | DeepSpeed checkpoint engine | 工程 | ckpt 流式写、增量 ckpt |
| ⭐ | Megatron + NVIDIA NeMo | 工程 | 大规模训练 + checkpoint 优化 |
| ◯ | TorchElastic / etcd 心跳 | 工程 | 弹性调度基础设施 |
D. 推理状态保护(空白领域,项目核心机会)
这一类几乎没有完整论文——KV pool 故障了怎么办?向量索引节点掉电了怎么办?Agent 长记忆库一致性怎么保证?业界靠”多实例 + LB + 重 prefill”硬扛,学术上没有系统化答案。
| 思路 | 现有零散参考 | 项目可做的事 |
|---|---|---|
| KV pool EC | 借鉴 Carbink/Hydra,把 EC 思路套到 KV 块 | 设计 KV-aware 编码(LLM 容忍度感知有损 EC) |
| 向量索引一致性 | 传统 IR(Lucene 等)有日志机制,Milvus 有副本 | 分离式向量库的低成本副本 / EC + 增量索引 |
| Agent 长记忆复制 | 数据库主从复制,但 Agent memory 写入模式很特殊 | 为 episodic / semantic memory 量身定做 |
| 故障恢复 vs 重 prefill | 没有定量分析 | 建模”恢复 KV vs 重算 KV”的成本曲线 |
| 跨层级容错 | 各层独立做 | 三级存储联合容错(SSD 多副本 / DRAM EC / HBM 主) |
| 冷热分级容错强度 | 热数据强保护、冷数据弱保护是常识但没系统化 | 长记忆 + 推理状态的冷热感知容错策略 |
E. 推理服务可靠性(SRE 视角)
| 优先级 | 系统 | 关键 |
|---|---|---|
| ⭐ | vLLM 故障恢复机制 | 引擎级 OOM / GPU 故障处理(主要靠重启 + LB) |
| ⭐ | NVIDIA Triton multi-instance | 实例级冗余,无状态 |
| ◯ | Bedrock / Vertex AI 工程实践 | 云厂商生产经验,不开源 |
F. 综述与立场论文
- A Survey of Fault Tolerance in Distributed Deep Learning(2023+)
- Reliability in Large-Scale ML Research Clusters(Meta 2024,模块零第 1 章引文,容错占大集群 goodput 主要损耗——可作为申报书的”为什么非做不可”实证)
- Memory Systems Reliability Surveys(传统计算机系统视角)
第三模块拟攻关键问题(供申报书参考)
📍 科学问题候选:
- 长记忆 + 推理关键状态在分离式架构上的低成本容错——如何利用数据语义(LLM 对扰动的容忍度)与冷热分级,设计副本开销低于传统三副本但可靠性等价或更优的冗余机制?
📍 关键技术增量:
- LLM-aware EC:KV 是有损可恢复的(模型本身有容错),可以做激进 EC + 残差校正
- 冷热分级容错强度:活跃 KV 强保护(同步副本)、冷 KV 弱保护(异步 EC)、归档数据极弱保护
- 故障恢复成本建模:恢复 KV 的代价 vs 重 prefill 代价,自动选择恢复路径
- 跨模块协同容错:第一模块的”放置”决策本身就是容错的输入(不同层级的可靠性不同)
第三模块拟章节(后续可作为新模块或并入模块十三)
| 章 | 主题 |
|---|---|
| 1 | 长记忆系统的故障模型——比传统系统多了什么 |
| 2 | 训练 checkpoint 经典经验回顾(CheckFreq / Gemini / Bamboo) |
| 3 | 远端内存 EC 范式(Carbink / Hydra)精读 |
| 4 | KV-aware EC:LLM 容忍度建模与有损纠错 |
| 5 | 向量索引的低成本副本与增量恢复 |
| 6 | 跨层级 / 冷热分级容错策略 |
| 7 | 推理服务可靠性工程(SRE 视角) |
| 8 | 端到端实战:RDMA 集群 + EC + 故障注入 |
申报书可用的”成效”模板(第三模块)
| 维度 | 量化目标 |
|---|---|
| 副本开销 | 长记忆数据冗余开销 ≤ 1.5×(对比传统 3×) |
| 可靠性 | 单节点故障SLO 不破坏(P99 抖动 ≤ 2×) |
| 恢复速度 | KV 恢复时间少于重 prefill 时间的 30% |
| 通用 | 同一套机制覆盖 KV / 向量 / 多模态 三类数据 |
| 开放 | EC 编码方案 + 故障注入基准 + 至少 X 篇 SOSP/OSDI 级论文 |
跨模块协同视图:三模块在生产系统里实际是同一套数据流——第一模块决定数据”放哪”,第二模块决定数据”怎么搬”,第三模块决定数据”挂了怎么办”。我们的最终系统应该有一个统一的长记忆数据 metadata 层,三模块共享它,各自做决策。