第8章:分布式多 Agent 记忆与一致性 —— d-HNSW / SHINE / CoTra / SPIRE / 鲲鹏 UB / Token Coherence
把 2025-2026 年分布式 / 分离式 Agent Memory ANN 这条最前沿的研究线讲清楚:从单机撞墙到分片方案的算力浪费、d-HNSW 在 RDMA 上的四大优化、SHINE 的可扩展协调、CoTra 的聚类感知路由、SPIRE 的精度保持索引、华为鲲鹏 UB 内存池的全局图方案、Token Coherence 把 MESI 协议搬到 Agent 同步。每个系统讲清它解决的具体痛点和留下的开放问题,最后用一节讲多 Agent 一致性这个还没收敛的研究问题。
前面 7 章把单机 ANN 这条线讲透了——从静态算法、动态更新、应用层框架到 Pancake 的多级缓存设计。但所有这些工作都假设”一台机器装得下全部向量”。当库规模到 100 亿、千亿向量(768-4096 维 → 几十 TB 数据),这个假设破产。本章把 2025-2026 年最前沿的分布式 / 分离式 Agent Memory ANN 工作整体拉到一起:分片范式为什么算力浪费 13.6 倍、d-HNSW 用 RDMA 怎么把单查询压到 142 μs、SHINE 怎么解决分布式 HNSW 的图完整性、CoTra 的聚类感知路由、SPIRE 的精度保持构建、鲲鹏 UB 内存池的全局图方案、Token Coherence 把 cache 协议搬到 Agent 同步。每个系统给一段”它解决的痛点 + 核心技巧 + 留下的开放问题”,最后用一节讲清多 Agent 一致性这个还没收敛的研究问题——这一章是 Stage 5 离工业最近、也最适合做 OSDI/SOSP/FAST 论文 idea 的方向。
📑 目录
- 1. 单机 ANN 为什么撞墙
- 2. 三种分布式范式
- 3. d-HNSW:RDMA 上的第一个 vector search 系统
- 4. SHINE:可扩展 HNSW + 分布式协调
- 5. CoTra:聚类感知 RDMA 路由
- 6. SPIRE:精度保持的递归多级索引构建
- 7. 鲲鹏 UB 内存池:全局图方案
- 8. Token Coherence:把 MESI 协议搬到 Agent 同步
- 9. 系统对比矩阵
- 10. 多 Agent 一致性的开放问题
- 自我检验清单
- 参考资料
1. 单机 ANN 为什么撞墙
1.1 三组硬数字
| 指标 | 工业上限 | 突破后 |
|---|---|---|
| 单机 DRAM | 主流服务器 1.5-2 TB;高端 4 TB | 装不下 100 亿 × 768d 向量 (~30 TB) |
| 单机 NVMe SSD | 单盘 30 TB,单机 200 TB | DiskANN 单机能撑 100 亿向量,但 P99 > 50 ms |
| 单机网络出口 | 100-400 Gbps | 多租户高 QPS 下出口饱和 |
🌟 关键事实:100 亿向量级是工业 SLA 的”分水岭”——这个规模以上,单机方案要么内存装不下、要么延迟达不到 < 50 ms。
1.2 大模型时代为什么这个规模常见
2024-2026 几个数据点:
| 应用 | 库规模 |
|---|---|
| 大型电商商品向量库 | 10-100 亿 |
| Bing/Google 网页 embedding | 100 亿+ |
| 字节系视频/广告 embedding | 100 亿+ |
| 长记忆 Agent(每用户百万记忆,1000 万用户) | 10 万亿 |
🍎 直觉对应:单机 ANN 像独栋别墅,能住一家三口;100 亿向量级是住一个小区,独栋肯定不够,必须建小区。
1.3 为什么不能简单分片
分片(sharding)是工业上 2018-2023 年的主流做法(Milvus、Vespa 都用这个):
全库 10 亿向量
↓ 分成 16 个 shard
shard 1: 6250 万 shard 2: 6250 万 ... shard 16: 6250 万
↑ ↑
每个 shard 是独立单机 ANN(HNSW 或 IVF)
查询:每次 ─→ 路由器 ─→ 16 个 shard 并行搜 ─→ 归并 top-k
看起来不错,但有两个致命问题:
问题 1:算力浪费亚线性
每个 shard 单独搜,总算力 = 16 × 单 shard 算力。但搜索复杂度是 O(log N) 而非 O(N)——所以 16 个小 shard 比一个大 shard 算力多 13.6 倍(华为鲲鹏挑战赛 PDF 给出的数字,第 11 节会展开)。
节点数 1 2 4 8 16
总算力比 1.0x 1.9x 3.7x 7.1x 13.6x
问题 2:高召回需要每个 shard 都搜
如果 nprobe(搜几个 shard)< 16,召回率断崖式下降——真正最相关的向量可能在任意一个 shard 上。要 0.99 召回必须搜全部 shard。
🧠 关键洞察:分片本质是”放弃了图索引的全局结构性”。HNSW 的层级导航在跨 shard 时失效,每个 shard 独立搜的结果汇总在质量上不等于全局 HNSW 搜索。
1.4 三条解决路径
为了避开分片的两个问题,研究界探索了三条路径:
路径 A:分片 + 智能路由 → CoTra(聚类感知)
只问最可能命中的 shard,减少算力浪费
路径 B:分离式内存 + 全局图 → d-HNSW / SHINE / 鲲鹏 UB
把图放进跨节点共享的内存池,保留全局结构
路径 C:精度保持的分布式构建 → SPIRE
构建时就考虑跨节点结构,归并阶段无损
后面 5 节展开这三条路径的代表性工作。
2. 三种分布式范式
2.1 总览
| 范式 | 数据布局 | 通信模型 | 典型代表 |
|---|---|---|---|
| 分片 | 每节点独立子库 | shared-nothing + RPC 路由 | Milvus, Vespa, Qdrant cluster |
| 分离式内存 | 全局图存在内存池 | RDMA / CXL 一边访问 | d-HNSW, SHINE, 鲲鹏 UB |
| 混合(递归) | 多级索引按精度切分 | shared-everything + 协同构建 | SPIRE, HARMONY |
2.2 三种范式的关键差异
分片: 分离式内存: 递归多级:
┌──────┐ ┌──────┐ ┌─────────────────┐ ┌─────────────────┐
│Shard1│ │Shard2│ ... │ 全局 HNSW 图 │ │ Level 0 (粗) │
│ │ │ │ │ 通过 RDMA 共享 │ └────────┬────────┘
└──────┘ └──────┘ └─────────────────┘ │
↑ ↑ ↑ ▼
└────────┴─────── CPU ┌──────────┐
并行搜索 + 归并 访问 │ Level 1 │
└─────┬─────┘
▼
┌──────────┐
│ Level 2 │
└──────────┘
全局结构: 无(独立小图) 全局结构: 有(一张大图) 全局结构: 部分(按级别)
算力: O(N) 全 shard 算力: O(log N) 单查询 算力: O(log N) + 跨级
延迟: 受最慢 shard 影响 延迟: 受 RDMA 影响 延迟: 受跨级跳转影响
🌟 关键判断:2025-2026 年的研究热点是范式 B 和范式 C——范式 A(分片)在工业界已经成熟,但学术上几乎没有新空间。
3. d-HNSW:RDMA 上的第一个 vector search 系统
3.1 论文背景
d-HNSW: A High-performance Vector Search Engine on Disaggregated Memory(Liu, Fang, Qian, UC Santa Cruz, arXiv:2603.13591, March 2026)。
这是第一篇把 HNSW 完整搬到 RDMA disaggregated memory 上的工作。论文自称 “to the best of our knowledge, the first RDMA-based vector similarity search engine designed for disaggregated memory”。
3.2 系统架构
Compute Pool (3 节点)
┌─────────────────────┐
│ CPU1 CPU2 CPU3 │
│ │ │ │ │
│ └──────┴──────┘ │
│ 缓存层 │
└──────────┬──────────┘
│ RDMA (one-sided READ)
│ 100 Gbps
┌──────────▼──────────┐
│ Memory Pool (1 节点) │
│ ┌────────────────┐ │
│ │ HNSW 全局图 │ │
│ │ (远端 DRAM) │ │
│ └────────────────┘ │
└─────────────────────┘
Testbed:3 × Dell R650 作 compute + 1 × R650 作 memory,每台 2×36-core Xeon Platinum + 250 GB RAM + Mellanox ConnectX-6 100 Gb NIC。
3.3 三大挑战 + 四大技巧
d-HNSW 论文把分离式 HNSW 的难点拆成三个 challenge:
| Challenge | 痛点 | d-HNSW 的解 |
|---|---|---|
| C1: 减少网络 round-trip | greedy search 每步访问一个节点,跨节点访问数百~3000 次 | Representative index caching(meta-HNSW) |
| C2: 支持单边插入 | 新向量插入要散布在远端内存里,碎片化严重 | RDMA-friendly graph layout(gap + 双 sub-HNSW) |
| C3: 高效批量操作 | 批量查询里 sub-HNSW 重复传输,带宽浪费 | Query-aware batched loading(每 sub-HNSW 一次加载) |
加上一个工程层的:
- Pipeline 并行:把”网络获取 + sub-HNSW 内搜索”做成流水线
3.4 关键性能数据
| 数据集 | 规模 | 延迟 | vs baseline | Recall |
|---|---|---|---|---|
| SIFT1M @ top-1 | 1M | 142 μs | 656× (vs d-Pyramid 97.65ms) | 94.24% |
| GIST1M @ top-1 | 1M | 1,172 μs | 730× | 79.63% |
| DEEP10M @ top-10 | 10M | 1,824 μs | 188× | 93.93% |
| TEXT10M | 10M | ~7,800 μs | - | ~88% |
吞吐:SIFT1M 在 30 workers 下达 202K QPS(5→30 workers 近线性扩展)。
Ablation:从 Naïve(34.8 ms)→ + Regroup + Doorbell + Pipeline(80.9 μs),430× 加速。
3.5 留下的开放问题(来自 d-HNSW 论文 limitations 章节 + 我们的实测)
| # | 开放问题 | 评级 |
|---|---|---|
| 1 | 数据放置完全静态 | ⭐⭐⭐⭐⭐ |
| 2 | 无运行时 profiling | ⭐⭐⭐⭐⭐ |
| 3 | 固定 beam search 参数 | ⭐⭐⭐ |
| 4 | 混合插入下吞吐退化 3.3×(论文 Fig.11 数据) | ⭐⭐⭐⭐⭐ |
| 5 | Rebuild 期间 QPS 降 63%(120s 窗口) | ⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ 标记的是最有论文 idea 价值的问题。RDMA-HNSW v2 / 自适应放置工作就是攻这些空白——本系列模块二十二第 9 章会展开。
🌟 结论:d-HNSW 是第一个把”分离式内存 + 向量搜索”完整工程化的工作——它定义了 baseline,留出大量优化空间。
4. SHINE:可扩展 HNSW + 分布式协调
4.1 论文背景
SHINE: A Scalable HNSW Index in Disaggregated Memory(Widmoser, Kocher, Augsten, arXiv:2507.17647, July 2025)。
SHINE 比 d-HNSW 晚 2 个月发表,但走了完全不同的路线:不缓存代表性索引,而是聚焦于 multi-node compute 下的图协调。
4.2 核心思想:保持图完整性
d-HNSW 用 representative index caching——本质上是”缓存一份子图副本”,可能存在 staleness 问题。SHINE 反其道而行:
SHINE 假设:
1. 内存池里有一份 HNSW 全图,不切分
2. 多个 compute 节点都直接访问这份全图
3. 难点:多节点并发搜索 + 偶尔插入时的协调
SHINE 不做:
- 不在 compute 节点本地缓存图副本
- 不分图 (sub-HNSW)
🍎 直觉对应:d-HNSW 像每家自带一本字典副本(快但可能版本不同步);SHINE 像图书馆里只有一本字典,所有人共用(一致但要协调访问)。
4.3 关键技巧
- 分布式缓存协调:compute 节点共同维护一个 hot-set cache(哪些图节点被频繁访问)
- 无锁并发搜索:多个 compute 节点的搜索互不阻塞(搜索是只读)
- 协调插入:插入用乐观锁 + retry
4.4 与 d-HNSW 的对比
| 维度 | d-HNSW | SHINE |
|---|---|---|
| 图分片 | 是(两个 sub-HNSW) | 否(一张全图) |
| 本地缓存 | Representative index | Hot-set 协调缓存 |
| 一致性 | 静态 | 动态协调 |
| 工程复杂度 | 高(缓存管理) | 极高(分布式协调) |
| 适用规模 | 1M-100M | 100M-10B(理论) |
4.5 留下的开放问题
- ⚠️ 协调缓存有抖动:hot-set 切换时性能不稳定
- ❌ 工业部署案例少:实验主要在合成数据上
- ⚠️ 删除支持差:协调删除比插入更难
🌟 结论:SHINE 代表**“shared-everything”路线**,理论上更优雅但工程更难。它的开放问题恰好是 Pancake 通过”全局视角 + agent-aware 缓存”想解决的。
5. CoTra:聚类感知 RDMA 路由
5.1 论文背景
CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA(Zhi et al., arXiv:2507.06653, July 2025)。
CoTra 走的是”路径 A:分片 + 智能路由”。它没有放弃分片,而是问:怎么让分片的算力浪费最小化?
5.2 核心思想:用聚类做路由
传统分片:
query → 全部 16 个 shard 并行搜 → 浪费 13.6×
CoTra:
query → 用预聚类信息选 top-k 个 shard → 只搜这几个 shard
具体做法:
- 离线:对全库做 k-means,每个聚类中心记录”主要在哪个 shard”
- 查询时:先用 query 比 k-means 中心,找最相似的 top-N 个中心
- 路由:只把 query 发到这些中心所在的 shard
5.3 数据点
- 16 节点 RDMA 集群上,CoTra 比朴素分片吞吐提升 2×+
- Recall 几乎无损(top-N 路由参数足够大时)
5.4 留下的开放问题
- ⚠️ 底库静态聚类:动态插入会让聚类失效
- ❌ 负载不均:查询分布偏斜时某些 shard 过热
- ❌ 不支持底库动态增删:聚类要重新做
🌟 结论:CoTra 是分片路线的优化器——能榨干分片范式的最后一点性能,但没法跳出分片的根本限制。
6. SPIRE:精度保持的递归多级索引构建
6.1 论文背景
SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction(arXiv:2512.17264, December 2025)。
SPIRE 走的是”路径 C:精度保持的分布式构建”。它的核心问题:怎么在分布式环境下构建一个全局质量等同于单机的索引?
6.2 核心思想:递归多级 + 跨级一致性
Level 0 (粗): k-means(K0),每簇约 N/K0 向量
Level 1 (中): 每个 L0 簇内做 k-means(K1)
Level 2 (细): 每个 L1 簇内做 HNSW
跨级一致性保证:
- L0 中心的选择基于全局视角(不是每节点独立)
- L1 划分确保边界不破坏 L0 簇内结构
- L2 HNSW 的图构建跨 L1 边界(不会丢失 boundary 向量)
🍎 直觉对应:SPIRE 像盖楼——先打地基(L0 划分要全局考虑),再建框架(L1 不破坏地基),最后填房间(L2 HNSW 不破坏框架)。
6.3 数据点
- 在 80 亿向量上,46 节点构建吞吐比分片方案提升 9.64×
- 召回与单机方案持平
6.4 留下的开放问题
- ⚠️ 构建时间长:80 亿规模仍需小时级
- ⚠️ 动态插入未充分研究
- ❌ 跨级查询路径未优化
🌟 结论:SPIRE 是**“分布式索引构建”方向的代表**。它解决了”怎么建”,但”怎么用”还没充分回答。
7. 鲲鹏 UB 内存池:全局图方案
7.1 背景
华为在 2026 年提出基于 UB (Ultra Bandwidth) 互联的分离式内存方案。UB 是华为自研的高速互联,性能远超 RDMA:
| 维度 | RDMA (100 Gbps) | 鲲鹏 UB |
|---|---|---|
| 单跳延迟 | ~4 μs | 370 ns ⭐ |
| 带宽 | 12.5 GB/s | 400 GB/s ⭐ |
| 适用场景 | 跨机柜分离式 | 超节点内分离式 |
🍎 直觉对应:RDMA 是城市间高铁;UB 是同一栋大楼里的电梯——后者快得多但范围有限。
7.2 鲲鹏方案:M 节点共享内存池
┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐
│CPU1 │ │CPU2 │ │CPU3 │ │CPU4 │... │CPU16 │
│ ◀──┼─┼──────┼─┼──────┼─┼──────┼────┼──▶ │
└──┬───┘ └──────┘ └──────┘ └──────┘ └──┬───┘
│ UB 互联 │
│ (370 ns, 400 GB/s) │
└─────────────────────────────────────┘
▼
┌─────────────────────────┐
│ 16 节点共享内存池 │
│ (内存容量百 TB 级) │
│ HNSW 全局图 ───────────│
└─────────────────────────┘
7.3 鲲鹏方案的三条路线
根据鲲鹏社区披露的 2026 年研究方向,他们同时在攻三块:
- 路线 1:上下文缓存系统(Agent 层优化)—— 减少 Agent 调用间的 token 浪费
- 路线 2:基于内存池的全局向量检索 —— 全局 HNSW + 单节点查询
- 路线 3:超低内存混合介质 —— RaBitQ+PCA+SIMD,内存降 99%(亿级 12GB → 100MB)
🌟 关键判断:鲲鹏路线 2 是 d-HNSW 的”近距离硬件”版本——同样思路(全局图 + 单节点查询),但因为 UB 比 RDMA 快 10×,工程难度降一个量级。
7.4 鲲鹏挑战赛背景
华为公开过一个挑战赛题:
| 维度 | 要求 |
|---|---|
| 硬件 | 16 节点鲲鹏 CPU + 1.5TB/节点 + UB 互联 |
| 规模 | 25 亿向量 × 256 维 |
| 性能 | 检索 QPS 达到 baseline 的 8 倍 |
| 召回 | Top-100 @ recall 0.99 |
| 延迟 | < 50 ms |
| 动态 | 90% 检索 + 10% 增删时与 baseline 吞吐持平 |
Baseline 是 Faiss HNSW。8× 是个很硬的目标——这正是 2026 年分布式 ANN 领域的”工业体温计”。
7.5 这条路线的开放问题
- ❌ UB 是华为专有:研究成果迁移性受限(学界更习惯 RDMA / CXL)
- ⚠️ 动态增删未充分公开:90/10 增删持平基线的具体方案未披露
- ⭐ 学术贡献空间:算法层(动态健康监控 + 自适应放置)适用于 UB / RDMA / CXL 任意一种
🌟 结论:鲲鹏 UB 路线是分离式内存 ANN 的”硬件红利”——硬件好了一个量级,算法层的”难”和”巧”都被部分抹平。未来 2-3 年的研究热点会在”UB / CXL 2.0 时代怎么设计 ANN”。
8. Token Coherence:把 MESI 协议搬到 Agent 同步
8.1 论文背景
Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems(arXiv:2603.15183, March 2026)。
前面 5 个系统都聚焦”向量检索本身怎么分布式”。Token Coherence 问了一个更高层的问题:多个 Agent 共享记忆库时,怎么保证它们看到的状态是一致的?
8.2 核心类比:MESI 缓存协议
MESI 是 1980 年代计算机架构里的经典缓存协议,定义了 4 个状态:
| 状态 | 含义 |
|---|---|
| M (Modified) | 这个缓存行被独占且修改过 |
| E (Exclusive) | 独占但未修改 |
| S (Shared) | 多核共享只读 |
| I (Invalid) | 无效(需要重新读取) |
Token Coherence 把这套搬到 Agent 记忆:
记忆项 m 的状态:
- M: 某个 Agent 正在独占修改 m(如 user 偏好更新)
- E: 某个 Agent 独占持有,可读可写
- S: 多个 Agent 共享只读
- I: m 已经被某个 Agent 改了,其他持有缓存的 Agent 需要重新拉
8.3 关键技巧
- Token 锁:每条记忆有一个”协调 token”,状态转换时 token 必须显式转移
- 失效通知:M→I 时主动广播给所有持有缓存的 agent
- 乐观读:读时不锁,只在结果使用时验证状态
8.4 这条路线为什么重要
🧠 关键洞察:Token Coherence 是第一篇把”系统结构的成熟一致性协议”搬到 Agent Memory 的工作。
它打开了一片新的研究空间:
- 多 Agent 写冲突的形式化定义:哪些操作可以并发,哪些必须串行
- 一致性级别的灵活配置:strong / sequential / eventual
- 跨硬件层一致性:DRAM 缓存 / SSD 持久化 / RDMA 远端如何统一管理
8.5 留下的开放问题
- ❌ 性能开销大:广播 invalidation 在多 agent 数百时延迟显著
- ⚠️ 没考虑”近似”语义:ANN 本身是近似的,强一致性可能没必要
- ⚠️ 与底层 ANN 索引脱耦不充分
🌟 结论:Token Coherence 是多 Agent 一致性问题的起点。它把这个问题从”工程 hack”提升到”系统设计”的高度——但具体方案还不成熟。
8.6 配套 vision paper:CompArch 视角
同期还有一篇 vision paper:Multi-Agent Memory from a Computer Architecture Perspective(arXiv:2603.10062)。
它把整个 Agent Memory 系统类比为计算机内存系统:
| 计算机系统 | Agent Memory 系统 |
|---|---|
| L1/L2/L3 Cache | Working / Recall / Archival |
| Page Fault | Memory recall miss |
| Cache Coherence (MESI) | Token Coherence |
| Memory Bus | RDMA / UB |
| DRAM | Vector store |
| Disk | Cold archive |
🌟 关键判断:这套类比是未来 2-3 年 Agent Memory 系统研究的”主导框架”。如果你做研究,把任何一个经典系统结构概念(virtual memory / cache coherence / DRAM controller)搬到 Agent Memory 都可能产出论文。
9. 系统对比矩阵
9.1 7 个系统横向对比
| 系统 | 范式 | 适用规模 | 单查询延迟 | 多 Agent | 动态增删 | 工程门槛 |
|---|---|---|---|---|---|---|
| CoTra | 分片+路由 | 100M-10B | ~5 ms | ❌ | ⚠️ | 低 |
| d-HNSW | 分离式 RDMA | 1M-100M | 142 μs | ⚠️ | ⚠️ 退化 3.3× | 中 |
| SHINE | 分离式 RDMA | 100M-10B | ~1 ms | ✅ | ⚠️ | 极高 |
| SPIRE | 递归多级 | 1B-80B+ | ~10 ms | ⚠️ | ❌ | 高 |
| 鲲鹏 UB 全局图 | 分离式 UB | 1B-10B | 估 < 1 ms | ✅ | ✅ | 高(硬件依赖) |
| Token Coherence | 一致性协议 | 任意 | 一致性开销 | ✅ ⭐ | ✅ | 高 |
⭐ 关键发现:没有任何一个系统在所有维度都最优。当前研究热点就在”组合不同优势”——比如把 Token Coherence 的多 agent 一致性 + d-HNSW 的 RDMA 优化 + SPIRE 的精度保持构建放进一个统一系统。
9.2 选型决策树
你的库规模?
│
├── < 100M ──────────→ 单机 HNSW(不需要分布式)
│
├── 100M-10B ────────→ 关心动态增删吗?
│ ├── 是 ─→ SHINE 或 Pancake(参见第 5-7 章)
│ └── 否 ─→ d-HNSW 或 CoTra
│
├── 10B-80B ─────────→ SPIRE(精度优先)
│ 或 鲲鹏 UB(如果有 UB 硬件)
│
└── > 80B ────────────→ 当前 open question(分片 + SPIRE 混合)
│
▼
⭐ 论文 idea 富矿
多 Agent 共享:任何路线 + Token Coherence。
10. 多 Agent 一致性的开放问题
这一节单独拎出来讲,因为它是整个分布式 Agent Memory ANN 最不收敛的子方向——也是最适合做毕业论文的方向。
10.1 一致性谱系
强一致 弱一致
│ │
├── Linearizability ─→ 严格 MESI、每次写全局可见 │
├── Sequential Consistency ─→ 所有 agent 看到的写顺序一致 │
├── Causal Consistency ─→ 有因果关系的写按因果顺序 │
├── Eventual Consistency ─→ 最终一致,过渡期 staleness 允许 │
└── Recall-bounded ⭐ ─→ 我们提出的 ANN-specific 弱一致 │
"只要全局 recall 不低于阈值,怎么乱都行" │
🌟 关键创新点:ANN 本身是近似的——所以一致性也可以是”近似的”。这是 ANN 系统独有的研究空间。
10.2 五个明确的开放问题
| # | 开放问题 | 已有探索 | 论文价值 |
|---|---|---|---|
| 1 | 多 Agent 写冲突的形式化定义 | Token Coherence (artifact 层) | ⭐⭐⭐⭐⭐ |
| 2 | Recall-bounded 一致性的理论模型 | 我们的提案,未发表 | ⭐⭐⭐⭐⭐ |
| 3 | 跨硬件层一致性(DRAM ↔ RDMA ↔ SSD) | Pancake 的多级 cache | ⭐⭐⭐⭐ |
| 4 | 多 Agent 公平性 + 隔离 | MIRIX 应用层 ACL | ⭐⭐⭐⭐ |
| 5 | 故障恢复下的一致性保证 | 通用 Raft/Paxos | ⭐⭐⭐ |
10.3 一个具体的开放问题:Recall-bounded 一致性
形式化表述:
设有 K 个 Agent 共享一个 ANN 库 D。Agent i 的查询 q_i 在时刻 t 看到的库为 D_i^t(可能滞后于全局最新版本 D^t)。
定义:系统满足 (R, τ)-recall-bounded 一致性,当且仅当: ∀ i, ∀ q_i: Recall@k(ANN(D_i^t, q_i), KNN_k(D^t, q_i)) ≥ R, where staleness(D_i^t) ≤ τ。
问题:在给定硬件(RDMA / CXL / UB)和工作负载(写率、查询率)下,能保证的 (R, τ) 上下界是什么?
🧠 关键洞察:这个问题还没有任何论文给出过 closed-form 答案。如果你做这个方向,第 9 章会给具体的研究方法论。
✅ 自我检验清单
- 单机撞墙:能说出”100 亿向量级 = 30 TB 数据”这个数字,并解释为什么单机装不下
- 分片浪费:能解释为什么 16 个 shard 比一个大库总算力浪费 13.6×(不是 16×)
- 三种分布式范式:能区分分片、分离式内存、递归多级三种范式的核心差异
- d-HNSW 三大挑战:能口述减少 round-trip / 单边插入 / 批量操作三大挑战和对应技巧
- d-HNSW vs SHINE:能说出两者在”是否缓存代表性索引”上的核心区别
- CoTra 路由:能解释聚类感知路由怎么减少分片算力浪费
- SPIRE 跨级一致性:能说出”L0 全局视角 → L1 不破坏 → L2 跨边界”的递归思路
- UB vs RDMA:能背出 UB (370 ns) 和 RDMA (4 μs) 的延迟差异
- Token Coherence 的 MESI 类比:能列出 M / E / S / I 四个状态在 Agent Memory 里对应什么
- Recall-bounded 一致性:能描述这个 ANN-specific 弱一致性模型的形式化定义
📚 参考资料
概念入门
- 模块十三 新型互联与远程内存系统:本系列 —— 第 1-3 章 RDMA / CXL / UB 的硬件基础
- 模块十六 Agent Memory 与向量检索的分离式协同:本系列 —— 鲲鹏路线 1-3 的完整介绍
- CMU “Cache Coherence Protocols” 课件:搜 CMU 15-418 —— MESI 协议的经典入门,理解 Token Coherence 必备
关键论文(按时间序)
2025 年开端:
- CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA(Zhi et al., 2025):arXiv 2507.06653
- SHINE: A Scalable HNSW Index in Disaggregated Memory(Widmoser, Kocher, Augsten, 2025):arXiv 2507.17647
- d-HNSW: Efficient Vector Search on Disaggregated Memory(Liu, Fang, Qian, HotStorage 2025):arXiv 2505.11783
- HARMONY: A Scalable Distributed Vector Database(SIGMOD 2025):MIT DSpace
- SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction(2025):arXiv 2512.17264
2026 年最新:
- ⭐ d-HNSW v2 (Extended)(Liu, Fang, Qian, March 2026):arXiv 2603.13591 —— 含完整系统设计和 12K LoC 实现
- ⭐ Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems(2026):arXiv 2603.15183
- Multi-Agent Memory from a Computer Architecture Perspective(vision paper, 2026):arXiv 2603.10062
DistributedANN 工业级:
- DistributedANN: Microsoft Research’s 500 亿向量系统:MSR
- GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database(VLDB 2025):Tsinghua PDF
Surveys
- Storage-Based ANNS Survey(IISWC 2025):atlarge-research.com PDF —— 含分布式 / 分离式章节
- Disaggregated Memory: A Survey(搜索 arXiv 2024-2025)—— 硬件视角
行业讨论
- 鲲鹏社区”鲲鹏在 Agent 记忆系统上的创新及实践”:鲲鹏社区博客 —— UB 全局图方案的工业披露
- 华为鲲鹏挑战赛题(2026 年版):含 25 亿 × 256d 数据集、8× QPS 要求的工业级 benchmark
- NVIDIA NVLink 文档:搜 “NVLink for AI infrastructure” —— GPU 间高速互联,与 UB 类似哲学
- CXL Consortium:computeexpresslink.org —— CXL 标准与未来路线
框架文档
- DiskANN GitHub:github.com/microsoft/DiskANN —— 含 distributed deployment 选项
- Milvus Distributed Architecture:milvus.io/docs —— 工业级分片实现
- Qdrant Cluster Mode:qdrant.tech/documentation/guides/distributed_deployment
本系列其它章节
- 上一章:第7章 Pancake 精读 3 GPU-CPU 协同动态索引(待写)
- 下一章:第9章 开放问题与研究方法论 —— 6 大未解问题展开 + 给做研究的人的方法论
- 相关模块:模块十三 新型互联与远程内存系统 —— RDMA / CXL / UB 硬件细节
- 相关模块:模块二十 分离式内存事务系统全景调研 —— 一致性协议在分离式内存上的更深入讨论