第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复

项目第三模块研究内容:面向长记忆数据及推理关键状态数据,研究低成本容错、冗余保护与故障恢复机制,降低传统多副本的资源开销,提高系统的可靠性与扩展能力。

⚠️ 学术界这块几乎空白——大部分容错文献集中在训练 checkpoint,**生产推理状态(KV pool / 向量库 / agent 长记忆)**的容错研究极少。这正是本项目最大的学术机会点。

阅读优先级

🔥 = 必读 | ⭐ = 重要 | ◯ = 选读

A. 训练侧 Checkpoint(成熟领域,学习经验)

优先级	系统	出处	关键
🔥	CheckFreq	FAST 2021	Checkpoint 频率 vs 容错代价 trade-off,经典建模
🔥	Gemini	SOSP 2023	内存 + RDMA 复制 checkpoint,大幅降低 stall
⭐	Bamboo	NSDI 2023	弹性流水线,冗余前向 stage 替代纯 checkpoint
⭐	Oobleck	SOSP 2023	异构容错训练,多套 pipeline plan 互为备份
⭐	ReCycle	SOSP 2024	流水训练故障恢复,微批级别重路由
◯	Varuna	EuroSys 2022	大规模弹性训练
◯	Nebula(MS internal)	工程	流式 checkpoint 写远端

B. 远端内存 / 分离式系统的容错(直接技术基础)

优先级	系统	出处	关键
🔥	Carbink	OSDI 2022	远端内存 EC(纠删码)替代多副本,3× 容量
🔥	Hydra	NSDI 2022	低延迟 EC for far memory,纠删读延迟优化
⭐	InfiniSwap	NSDI 2017	远端内存 swap 框架(已在模块十三)
⭐	DRAGON / DiME	多篇	RDMA 远端内存 EC 容错
⭐	FaRM 副本协议	NSDI 2014	RDMA 副本一致性(已在模块十三)
◯	Pelikan / RAMP	2018-2020	内存 KV 系统的容错经验

🧠 关键洞察:EC 替代副本 是这个项目”低成本”卖点的最直接技术路径——3 副本变 1.3-1.5× 副本(EC),容量节省 ~50%,代价是写入和恢复路径变复杂。

C. AI 训练框架的弹性 / 容错(成熟工程)

优先级	系统	出处	关键
⭐	PyTorch Distributed Checkpoint	工程	分布式 ckpt 写,默认多副本
⭐	DeepSpeed checkpoint engine	工程	ckpt 流式写、增量 ckpt
⭐	Megatron + NVIDIA NeMo	工程	大规模训练 + checkpoint 优化
◯	TorchElastic / etcd 心跳	工程	弹性调度基础设施

D. 推理状态保护(空白领域,项目核心机会)

这一类几乎没有完整论文——KV pool 故障了怎么办?向量索引节点掉电了怎么办?Agent 长记忆库一致性怎么保证?业界靠”多实例 + LB + 重 prefill”硬扛,学术上没有系统化答案。

思路	现有零散参考	项目可做的事
KV pool EC	借鉴 Carbink/Hydra,把 EC 思路套到 KV 块	设计 KV-aware 编码(LLM 容忍度感知有损 EC)
向量索引一致性	传统 IR(Lucene 等)有日志机制,Milvus 有副本	分离式向量库的低成本副本 / EC + 增量索引
Agent 长记忆复制	数据库主从复制,但 Agent memory 写入模式很特殊	为 episodic / semantic memory 量身定做
故障恢复 vs 重 prefill	没有定量分析	建模”恢复 KV vs 重算 KV”的成本曲线
跨层级容错	各层独立做	三级存储联合容错(SSD 多副本 / DRAM EC / HBM 主)
冷热分级容错强度	热数据强保护、冷数据弱保护是常识但没系统化	长记忆 + 推理状态的冷热感知容错策略

E. 推理服务可靠性(SRE 视角)

优先级	系统	关键
⭐	vLLM 故障恢复机制	引擎级 OOM / GPU 故障处理(主要靠重启 + LB)
⭐	NVIDIA Triton multi-instance	实例级冗余,无状态
◯	Bedrock / Vertex AI 工程实践	云厂商生产经验,不开源

F. 综述与立场论文

A Survey of Fault Tolerance in Distributed Deep Learning(2023+)
Reliability in Large-Scale ML Research Clusters(Meta 2024,模块零第 1 章引文,容错占大集群 goodput 主要损耗——可作为申报书的”为什么非做不可”实证)
Memory Systems Reliability Surveys(传统计算机系统视角)

第三模块拟攻关键问题(供申报书参考)

📍 科学问题候选:

长记忆 + 推理关键状态在分离式架构上的低成本容错——如何利用数据语义(LLM 对扰动的容忍度)与冷热分级,设计副本开销低于传统三副本但可靠性等价或更优的冗余机制?

📍 关键技术增量:

LLM-aware EC:KV 是有损可恢复的(模型本身有容错),可以做激进 EC + 残差校正
冷热分级容错强度:活跃 KV 强保护(同步副本)、冷 KV 弱保护(异步 EC)、归档数据极弱保护
故障恢复成本建模:恢复 KV 的代价 vs 重 prefill 代价,自动选择恢复路径
跨模块协同容错:第一模块的”放置”决策本身就是容错的输入(不同层级的可靠性不同)

第三模块拟章节(后续可作为新模块或并入模块十三)

章	主题
1	长记忆系统的故障模型——比传统系统多了什么
2	训练 checkpoint 经典经验回顾(CheckFreq / Gemini / Bamboo)
3	远端内存 EC 范式(Carbink / Hydra)精读
4	KV-aware EC:LLM 容忍度建模与有损纠错
5	向量索引的低成本副本与增量恢复
6	跨层级 / 冷热分级容错策略
7	推理服务可靠性工程(SRE 视角)
8	端到端实战:RDMA 集群 + EC + 故障注入

申报书可用的”成效”模板(第三模块)

维度	量化目标
副本开销	长记忆数据冗余开销 ≤ 1.5×(对比传统 3×)
可靠性	单节点故障SLO 不破坏(P99 抖动 ≤ 2×)
恢复速度	KV 恢复时间少于重 prefill 时间的 30%
通用	同一套机制覆盖 KV / 向量 / 多模态三类数据
开放	EC 编码方案 + 故障注入基准 + 至少 X 篇 SOSP/OSDI 级论文

跨模块协同视图:三模块在生产系统里实际是同一套数据流——第一模块决定数据”放哪”,第二模块决定数据”怎么搬”,第三模块决定数据”挂了怎么办”。我们的最终系统应该有一个统一的长记忆数据 metadata 层,三模块共享它,各自做决策。

第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复

搜索