第8章：分布式多 Agent 记忆与一致性 —— d-HNSW / SHINE / CoTra / SPIRE / 鲲鹏 UB / Token Coherence

前面 7 章把单机 ANN 这条线讲透了——从静态算法、动态更新、应用层框架到 Pancake 的多级缓存设计。但所有这些工作都假设”一台机器装得下全部向量”。当库规模到 100 亿、千亿向量（768-4096 维 → 几十 TB 数据），这个假设破产。本章把 2025-2026 年最前沿的分布式 / 分离式 Agent Memory ANN 工作整体拉到一起：分片范式为什么算力浪费 13.6 倍、d-HNSW 用 RDMA 怎么把单查询压到 142 μs、SHINE 怎么解决分布式 HNSW 的图完整性、CoTra 的聚类感知路由、SPIRE 的精度保持构建、鲲鹏 UB 内存池的全局图方案、Token Coherence 把 cache 协议搬到 Agent 同步。每个系统给一段”它解决的痛点 + 核心技巧 + 留下的开放问题”，最后用一节讲清多 Agent 一致性这个还没收敛的研究问题——这一章是 Stage 5 离工业最近、也最适合做 OSDI/SOSP/FAST 论文 idea 的方向。

1. 单机 ANN 为什么撞墙

1.1 三组硬数字

指标	工业上限	突破后
单机 DRAM	主流服务器 1.5-2 TB；高端 4 TB	装不下 100 亿 × 768d 向量 (~30 TB)
单机 NVMe SSD	单盘 30 TB，单机 200 TB	DiskANN 单机能撑 100 亿向量，但 P99 > 50 ms
单机网络出口	100-400 Gbps	多租户高 QPS 下出口饱和

🌟 关键事实：100 亿向量级是工业 SLA 的”分水岭”——这个规模以上，单机方案要么内存装不下、要么延迟达不到 < 50 ms。

1.2 大模型时代为什么这个规模常见

2024-2026 几个数据点：

应用	库规模
大型电商商品向量库	10-100 亿
Bing/Google 网页 embedding	100 亿+
字节系视频/广告 embedding	100 亿+
长记忆 Agent（每用户百万记忆，1000 万用户）	10 万亿

🍎 直觉对应：单机 ANN 像独栋别墅，能住一家三口；100 亿向量级是住一个小区，独栋肯定不够，必须建小区。

1.3 为什么不能简单分片

分片（sharding）是工业上 2018-2023 年的主流做法（Milvus、Vespa 都用这个）：

全库 10 亿向量
   ↓ 分成 16 个 shard
shard 1: 6250 万   shard 2: 6250 万   ...   shard 16: 6250 万
   ↑                                              ↑
每个 shard 是独立单机 ANN（HNSW 或 IVF）

查询：每次 ─→ 路由器 ─→ 16 个 shard 并行搜 ─→ 归并 top-k

看起来不错，但有两个致命问题：

问题 1：算力浪费亚线性

每个 shard 单独搜，总算力 = 16 × 单 shard 算力。但搜索复杂度是 O(log N) 而非 O(N)——所以 16 个小 shard 比一个大 shard 算力多 13.6 倍（华为鲲鹏挑战赛 PDF 给出的数字，第 11 节会展开）。

节点数      1       2       4       8       16
总算力比   1.0x    1.9x    3.7x    7.1x    13.6x

问题 2：高召回需要每个 shard 都搜

如果 nprobe（搜几个 shard）< 16，召回率断崖式下降——真正最相关的向量可能在任意一个 shard 上。要 0.99 召回必须搜全部 shard。

🧠 关键洞察：分片本质是”放弃了图索引的全局结构性”。HNSW 的层级导航在跨 shard 时失效，每个 shard 独立搜的结果汇总在质量上不等于全局 HNSW 搜索。

1.4 三条解决路径

为了避开分片的两个问题，研究界探索了三条路径：

路径 A：分片 + 智能路由     →  CoTra（聚类感知）
        只问最可能命中的 shard，减少算力浪费

路径 B：分离式内存 + 全局图  →  d-HNSW / SHINE / 鲲鹏 UB
        把图放进跨节点共享的内存池，保留全局结构

路径 C：精度保持的分布式构建  →  SPIRE
        构建时就考虑跨节点结构，归并阶段无损

后面 5 节展开这三条路径的代表性工作。

2. 三种分布式范式

2.1 总览

范式	数据布局	通信模型	典型代表
分片	每节点独立子库	shared-nothing + RPC 路由	Milvus, Vespa, Qdrant cluster
分离式内存	全局图存在内存池	RDMA / CXL 一边访问	d-HNSW, SHINE, 鲲鹏 UB
混合（递归）	多级索引按精度切分	shared-everything + 协同构建	SPIRE, HARMONY

2.2 三种范式的关键差异

分片：                    分离式内存：              递归多级：
                                                  
┌──────┐ ┌──────┐         ┌─────────────────┐    ┌─────────────────┐
│Shard1│ │Shard2│  ...    │   全局 HNSW 图    │    │   Level 0 (粗)  │
│      │ │      │         │   通过 RDMA 共享  │    └────────┬────────┘
└──────┘ └──────┘         └─────────────────┘             │
   ↑        ↑                      ↑                       ▼
   └────────┴───────              CPU                ┌──────────┐
   并行搜索 + 归并                  访问                │  Level 1  │
                                                    └─────┬─────┘
                                                          ▼
                                                    ┌──────────┐
                                                    │  Level 2  │
                                                    └──────────┘
全局结构: 无（独立小图）       全局结构: 有（一张大图）  全局结构: 部分（按级别）
算力: O(N) 全 shard           算力: O(log N) 单查询    算力: O(log N) + 跨级
延迟: 受最慢 shard 影响        延迟: 受 RDMA 影响       延迟: 受跨级跳转影响

🌟 关键判断：2025-2026 年的研究热点是范式 B 和范式 C——范式 A（分片）在工业界已经成熟，但学术上几乎没有新空间。

3. d-HNSW：RDMA 上的第一个 vector search 系统

3.1 论文背景

d-HNSW: A High-performance Vector Search Engine on Disaggregated Memory（Liu, Fang, Qian, UC Santa Cruz, arXiv:2603.13591, March 2026）。

这是第一篇把 HNSW 完整搬到 RDMA disaggregated memory 上的工作。论文自称 “to the best of our knowledge, the first RDMA-based vector similarity search engine designed for disaggregated memory”。

3.2 系统架构

                          Compute Pool (3 节点)
                        ┌─────────────────────┐
                        │ CPU1   CPU2   CPU3  │
                        │  │      │      │    │
                        │  └──────┴──────┘    │
                        │       缓存层         │
                        └──────────┬──────────┘
                                   │ RDMA (one-sided READ)
                                   │ 100 Gbps
                        ┌──────────▼──────────┐
                        │ Memory Pool (1 节点) │
                        │  ┌────────────────┐ │
                        │  │  HNSW 全局图    │ │
                        │  │  (远端 DRAM)    │ │
                        │  └────────────────┘ │
                        └─────────────────────┘

Testbed：3 × Dell R650 作 compute + 1 × R650 作 memory，每台 2×36-core Xeon Platinum + 250 GB RAM + Mellanox ConnectX-6 100 Gb NIC。

3.3 三大挑战 + 四大技巧

d-HNSW 论文把分离式 HNSW 的难点拆成三个 challenge：

Challenge	痛点	d-HNSW 的解
C1: 减少网络 round-trip	greedy search 每步访问一个节点，跨节点访问数百~3000 次	Representative index caching（meta-HNSW）
C2: 支持单边插入	新向量插入要散布在远端内存里，碎片化严重	RDMA-friendly graph layout（gap + 双 sub-HNSW）
C3: 高效批量操作	批量查询里 sub-HNSW 重复传输，带宽浪费	Query-aware batched loading（每 sub-HNSW 一次加载）

加上一个工程层的：

Pipeline 并行：把”网络获取 + sub-HNSW 内搜索”做成流水线

3.4 关键性能数据

数据集	规模	延迟	vs baseline	Recall
SIFT1M @ top-1	1M	142 μs	656× (vs d-Pyramid 97.65ms)	94.24%
GIST1M @ top-1	1M	1,172 μs	730×	79.63%
DEEP10M @ top-10	10M	1,824 μs	188×	93.93%
TEXT10M	10M	~7,800 μs	-	~88%

吞吐：SIFT1M 在 30 workers 下达 202K QPS（5→30 workers 近线性扩展）。

Ablation：从 Naïve（34.8 ms）→ + Regroup + Doorbell + Pipeline（80.9 μs），430× 加速。

3.5 留下的开放问题（来自 d-HNSW 论文 limitations 章节 + 我们的实测）

#	开放问题	评级
1	数据放置完全静态	⭐⭐⭐⭐⭐
2	无运行时 profiling	⭐⭐⭐⭐⭐
3	固定 beam search 参数	⭐⭐⭐
4	混合插入下吞吐退化 3.3×（论文 Fig.11 数据）	⭐⭐⭐⭐⭐
5	Rebuild 期间 QPS 降 63%（120s 窗口）	⭐⭐⭐⭐

⭐⭐⭐⭐⭐ 标记的是最有论文 idea 价值的问题。RDMA-HNSW v2 / 自适应放置工作就是攻这些空白——本系列模块二十二第 9 章会展开。

🌟 结论：d-HNSW 是第一个把”分离式内存 + 向量搜索”完整工程化的工作——它定义了 baseline，留出大量优化空间。

4. SHINE：可扩展 HNSW + 分布式协调

4.1 论文背景

SHINE: A Scalable HNSW Index in Disaggregated Memory（Widmoser, Kocher, Augsten, arXiv:2507.17647, July 2025）。

SHINE 比 d-HNSW 晚 2 个月发表，但走了完全不同的路线：不缓存代表性索引，而是聚焦于 multi-node compute 下的图协调。

4.2 核心思想：保持图完整性

d-HNSW 用 representative index caching——本质上是”缓存一份子图副本”，可能存在 staleness 问题。SHINE 反其道而行：

SHINE 假设：
1. 内存池里有一份 HNSW 全图，不切分
2. 多个 compute 节点都直接访问这份全图
3. 难点：多节点并发搜索 + 偶尔插入时的协调

SHINE 不做：
- 不在 compute 节点本地缓存图副本
- 不分图 (sub-HNSW)

🍎 直觉对应：d-HNSW 像每家自带一本字典副本（快但可能版本不同步）；SHINE 像图书馆里只有一本字典，所有人共用（一致但要协调访问）。

4.3 关键技巧

分布式缓存协调：compute 节点共同维护一个 hot-set cache（哪些图节点被频繁访问）
无锁并发搜索：多个 compute 节点的搜索互不阻塞（搜索是只读）
协调插入：插入用乐观锁 + retry

4.4 与 d-HNSW 的对比

维度	d-HNSW	SHINE
图分片	是（两个 sub-HNSW）	否（一张全图）
本地缓存	Representative index	Hot-set 协调缓存
一致性	静态	动态协调
工程复杂度	高（缓存管理）	极高（分布式协调）
适用规模	1M-100M	100M-10B（理论）

4.5 留下的开放问题

⚠️ 协调缓存有抖动：hot-set 切换时性能不稳定
❌ 工业部署案例少：实验主要在合成数据上
⚠️ 删除支持差：协调删除比插入更难

🌟 结论：SHINE 代表**“shared-everything”路线**，理论上更优雅但工程更难。它的开放问题恰好是 Pancake 通过”全局视角 + agent-aware 缓存”想解决的。

5. CoTra：聚类感知 RDMA 路由

5.1 论文背景

CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA（Zhi et al., arXiv:2507.06653, July 2025）。

CoTra 走的是”路径 A：分片 + 智能路由”。它没有放弃分片，而是问：怎么让分片的算力浪费最小化？

5.2 核心思想：用聚类做路由

传统分片：
  query → 全部 16 个 shard 并行搜 → 浪费 13.6×

CoTra：
  query → 用预聚类信息选 top-k 个 shard → 只搜这几个 shard

具体做法：

离线：对全库做 k-means，每个聚类中心记录”主要在哪个 shard”
查询时：先用 query 比 k-means 中心，找最相似的 top-N 个中心
路由：只把 query 发到这些中心所在的 shard

5.3 数据点

16 节点 RDMA 集群上，CoTra 比朴素分片吞吐提升 2×+
Recall 几乎无损（top-N 路由参数足够大时）

5.4 留下的开放问题

⚠️ 底库静态聚类：动态插入会让聚类失效
❌ 负载不均：查询分布偏斜时某些 shard 过热
❌ 不支持底库动态增删：聚类要重新做

🌟 结论：CoTra 是分片路线的优化器——能榨干分片范式的最后一点性能，但没法跳出分片的根本限制。

6. SPIRE：精度保持的递归多级索引构建

6.1 论文背景

SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction（arXiv:2512.17264, December 2025）。

SPIRE 走的是”路径 C：精度保持的分布式构建”。它的核心问题：怎么在分布式环境下构建一个全局质量等同于单机的索引？

6.2 核心思想：递归多级 + 跨级一致性

Level 0 (粗): k-means(K0)，每簇约 N/K0 向量
Level 1 (中): 每个 L0 簇内做 k-means(K1)
Level 2 (细): 每个 L1 簇内做 HNSW

跨级一致性保证：
- L0 中心的选择基于全局视角（不是每节点独立）
- L1 划分确保边界不破坏 L0 簇内结构
- L2 HNSW 的图构建跨 L1 边界（不会丢失 boundary 向量）

🍎 直觉对应：SPIRE 像盖楼——先打地基（L0 划分要全局考虑），再建框架（L1 不破坏地基），最后填房间（L2 HNSW 不破坏框架）。

6.3 数据点

在 80 亿向量上，46 节点构建吞吐比分片方案提升 9.64×
召回与单机方案持平

6.4 留下的开放问题

⚠️ 构建时间长：80 亿规模仍需小时级
⚠️ 动态插入未充分研究
❌ 跨级查询路径未优化

🌟 结论：SPIRE 是**“分布式索引构建”方向的代表**。它解决了”怎么建”，但”怎么用”还没充分回答。

7. 鲲鹏 UB 内存池：全局图方案

7.1 背景

华为在 2026 年提出基于 UB (Ultra Bandwidth) 互联的分离式内存方案。UB 是华为自研的高速互联，性能远超 RDMA：

维度	RDMA (100 Gbps)	鲲鹏 UB
单跳延迟	~4 μs	370 ns ⭐
带宽	12.5 GB/s	400 GB/s ⭐
适用场景	跨机柜分离式	超节点内分离式

🍎 直觉对应：RDMA 是城市间高铁；UB 是同一栋大楼里的电梯——后者快得多但范围有限。

7.2 鲲鹏方案：M 节点共享内存池

┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐    ┌──────┐
│CPU1  │ │CPU2  │ │CPU3  │ │CPU4  │... │CPU16 │
│   ◀──┼─┼──────┼─┼──────┼─┼──────┼────┼──▶   │
└──┬───┘ └──────┘ └──────┘ └──────┘    └──┬───┘
   │                  UB 互联             │
   │              (370 ns, 400 GB/s)      │
   └─────────────────────────────────────┘
                      ▼
         ┌─────────────────────────┐
         │  16 节点共享内存池       │
         │  (内存容量百 TB 级)      │
         │  HNSW 全局图 ───────────│
         └─────────────────────────┘

7.3 鲲鹏方案的三条路线

根据鲲鹏社区披露的 2026 年研究方向，他们同时在攻三块：

路线 1：上下文缓存系统（Agent 层优化）—— 减少 Agent 调用间的 token 浪费
路线 2：基于内存池的全局向量检索 —— 全局 HNSW + 单节点查询
路线 3：超低内存混合介质 —— RaBitQ+PCA+SIMD，内存降 99%（亿级 12GB → 100MB）

🌟 关键判断：鲲鹏路线 2 是 d-HNSW 的”近距离硬件”版本——同样思路（全局图 + 单节点查询），但因为 UB 比 RDMA 快 10×，工程难度降一个量级。

7.4 鲲鹏挑战赛背景

华为公开过一个挑战赛题：

维度	要求
硬件	16 节点鲲鹏 CPU + 1.5TB/节点 + UB 互联
规模	25 亿向量 × 256 维
性能	检索 QPS 达到 baseline 的 8 倍
召回	Top-100 @ recall 0.99
延迟	< 50 ms
动态	90% 检索 + 10% 增删时与 baseline 吞吐持平

Baseline 是 Faiss HNSW。8× 是个很硬的目标——这正是 2026 年分布式 ANN 领域的”工业体温计”。

7.5 这条路线的开放问题

❌ UB 是华为专有：研究成果迁移性受限（学界更习惯 RDMA / CXL）
⚠️ 动态增删未充分公开：90/10 增删持平基线的具体方案未披露
⭐ 学术贡献空间：算法层（动态健康监控 + 自适应放置）适用于 UB / RDMA / CXL 任意一种

🌟 结论：鲲鹏 UB 路线是分离式内存 ANN 的”硬件红利”——硬件好了一个量级，算法层的”难”和”巧”都被部分抹平。未来 2-3 年的研究热点会在”UB / CXL 2.0 时代怎么设计 ANN”。

8. Token Coherence：把 MESI 协议搬到 Agent 同步

8.1 论文背景

Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems（arXiv:2603.15183, March 2026）。

前面 5 个系统都聚焦”向量检索本身怎么分布式”。Token Coherence 问了一个更高层的问题：多个 Agent 共享记忆库时，怎么保证它们看到的状态是一致的？

8.2 核心类比：MESI 缓存协议

MESI 是 1980 年代计算机架构里的经典缓存协议，定义了 4 个状态：

状态	含义
M (Modified)	这个缓存行被独占且修改过
E (Exclusive)	独占但未修改
S (Shared)	多核共享只读
I (Invalid)	无效（需要重新读取）

Token Coherence 把这套搬到 Agent 记忆：

记忆项 m 的状态：
- M: 某个 Agent 正在独占修改 m（如 user 偏好更新）
- E: 某个 Agent 独占持有，可读可写
- S: 多个 Agent 共享只读
- I: m 已经被某个 Agent 改了，其他持有缓存的 Agent 需要重新拉

8.3 关键技巧

Token 锁：每条记忆有一个”协调 token”，状态转换时 token 必须显式转移
失效通知：M→I 时主动广播给所有持有缓存的 agent
乐观读：读时不锁，只在结果使用时验证状态

8.4 这条路线为什么重要

🧠 关键洞察：Token Coherence 是第一篇把”系统结构的成熟一致性协议”搬到 Agent Memory 的工作。

它打开了一片新的研究空间：

多 Agent 写冲突的形式化定义：哪些操作可以并发，哪些必须串行
一致性级别的灵活配置：strong / sequential / eventual
跨硬件层一致性：DRAM 缓存 / SSD 持久化 / RDMA 远端如何统一管理

8.5 留下的开放问题

❌ 性能开销大：广播 invalidation 在多 agent 数百时延迟显著
⚠️ 没考虑”近似”语义：ANN 本身是近似的，强一致性可能没必要
⚠️ 与底层 ANN 索引脱耦不充分

🌟 结论：Token Coherence 是多 Agent 一致性问题的起点。它把这个问题从”工程 hack”提升到”系统设计”的高度——但具体方案还不成熟。

8.6 配套 vision paper：CompArch 视角

同期还有一篇 vision paper：Multi-Agent Memory from a Computer Architecture Perspective（arXiv:2603.10062）。

它把整个 Agent Memory 系统类比为计算机内存系统：

计算机系统	Agent Memory 系统
L1/L2/L3 Cache	Working / Recall / Archival
Page Fault	Memory recall miss
Cache Coherence (MESI)	Token Coherence
Memory Bus	RDMA / UB
DRAM	Vector store
Disk	Cold archive

🌟 关键判断：这套类比是未来 2-3 年 Agent Memory 系统研究的”主导框架”。如果你做研究，把任何一个经典系统结构概念（virtual memory / cache coherence / DRAM controller）搬到 Agent Memory 都可能产出论文。

9. 系统对比矩阵

9.1 7 个系统横向对比

系统	范式	适用规模	单查询延迟	多 Agent	动态增删	工程门槛
CoTra	分片+路由	100M-10B	~5 ms	❌	⚠️	低
d-HNSW	分离式 RDMA	1M-100M	142 μs	⚠️	⚠️ 退化 3.3×	中
SHINE	分离式 RDMA	100M-10B	~1 ms	✅	⚠️	极高
SPIRE	递归多级	1B-80B+	~10 ms	⚠️	❌	高
鲲鹏 UB 全局图	分离式 UB	1B-10B	估 < 1 ms	✅	✅	高（硬件依赖）
Token Coherence	一致性协议	任意	一致性开销	✅ ⭐	✅	高

⭐ 关键发现：没有任何一个系统在所有维度都最优。当前研究热点就在”组合不同优势”——比如把 Token Coherence 的多 agent 一致性 + d-HNSW 的 RDMA 优化 + SPIRE 的精度保持构建放进一个统一系统。

9.2 选型决策树

你的库规模？
│
├── < 100M ──────────→ 单机 HNSW（不需要分布式）
│
├── 100M-10B ────────→ 关心动态增删吗？
│                       ├── 是 ─→ SHINE 或 Pancake（参见第 5-7 章）
│                       └── 否 ─→ d-HNSW 或 CoTra
│
├── 10B-80B ─────────→ SPIRE（精度优先）
│                       或 鲲鹏 UB（如果有 UB 硬件）
│
└── > 80B ────────────→ 当前 open question（分片 + SPIRE 混合）
                                                            │
                                                            ▼
                                              ⭐ 论文 idea 富矿

多 Agent 共享：任何路线 + Token Coherence。

10. 多 Agent 一致性的开放问题

这一节单独拎出来讲，因为它是整个分布式 Agent Memory ANN 最不收敛的子方向——也是最适合做毕业论文的方向。

10.1 一致性谱系

强一致                                                              弱一致
  │                                                                  │
  ├── Linearizability        ─→ 严格 MESI、每次写全局可见             │
  ├── Sequential Consistency ─→ 所有 agent 看到的写顺序一致           │
  ├── Causal Consistency     ─→ 有因果关系的写按因果顺序              │
  ├── Eventual Consistency   ─→ 最终一致，过渡期 staleness 允许       │
  └── Recall-bounded ⭐      ─→ 我们提出的 ANN-specific 弱一致        │
                              "只要全局 recall 不低于阈值，怎么乱都行" │

🌟 关键创新点：ANN 本身是近似的——所以一致性也可以是”近似的”。这是 ANN 系统独有的研究空间。

10.2 五个明确的开放问题

#	开放问题	已有探索	论文价值
1	多 Agent 写冲突的形式化定义	Token Coherence (artifact 层)	⭐⭐⭐⭐⭐
2	Recall-bounded 一致性的理论模型	我们的提案，未发表	⭐⭐⭐⭐⭐
3	跨硬件层一致性（DRAM ↔ RDMA ↔ SSD）	Pancake 的多级 cache	⭐⭐⭐⭐
4	多 Agent 公平性 + 隔离	MIRIX 应用层 ACL	⭐⭐⭐⭐
5	故障恢复下的一致性保证	通用 Raft/Paxos	⭐⭐⭐

10.3 一个具体的开放问题：Recall-bounded 一致性

形式化表述：

设有 K 个 Agent 共享一个 ANN 库 D。Agent i 的查询 q_i 在时刻 t 看到的库为 D_i^t（可能滞后于全局最新版本 D^t）。

定义：系统满足 (R, τ)-recall-bounded 一致性，当且仅当： ∀ i, ∀ q_i: Recall@k(ANN(D_i^t, q_i), KNN_k(D^t, q_i)) ≥ R， where staleness(D_i^t) ≤ τ。

问题：在给定硬件（RDMA / CXL / UB）和工作负载（写率、查询率）下，能保证的 (R, τ) 上下界是什么？

🧠 关键洞察：这个问题还没有任何论文给出过 closed-form 答案。如果你做这个方向，第 9 章会给具体的研究方法论。

模块十三新型互联与远程内存系统：本系列 —— 第 1-3 章 RDMA / CXL / UB 的硬件基础
模块十六 Agent Memory 与向量检索的分离式协同：本系列 —— 鲲鹏路线 1-3 的完整介绍
CMU “Cache Coherence Protocols” 课件：搜 CMU 15-418 —— MESI 协议的经典入门，理解 Token Coherence 必备

关键论文（按时间序）

2025 年开端：

CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA（Zhi et al., 2025）：arXiv 2507.06653
SHINE: A Scalable HNSW Index in Disaggregated Memory（Widmoser, Kocher, Augsten, 2025）：arXiv 2507.17647
d-HNSW: Efficient Vector Search on Disaggregated Memory（Liu, Fang, Qian, HotStorage 2025）：arXiv 2505.11783
HARMONY: A Scalable Distributed Vector Database（SIGMOD 2025）：MIT DSpace
SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction（2025）：arXiv 2512.17264

2026 年最新：

⭐ d-HNSW v2 (Extended)（Liu, Fang, Qian, March 2026）：arXiv 2603.13591 —— 含完整系统设计和 12K LoC 实现
⭐ Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems（2026）：arXiv 2603.15183
Multi-Agent Memory from a Computer Architecture Perspective（vision paper, 2026）：arXiv 2603.10062

DistributedANN 工业级：

DistributedANN: Microsoft Research’s 500 亿向量系统：MSR
GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database（VLDB 2025）：Tsinghua PDF

Surveys

Storage-Based ANNS Survey（IISWC 2025）：atlarge-research.com PDF —— 含分布式 / 分离式章节
Disaggregated Memory: A Survey（搜索 arXiv 2024-2025）—— 硬件视角

行业讨论

鲲鹏社区”鲲鹏在 Agent 记忆系统上的创新及实践”：鲲鹏社区博客 —— UB 全局图方案的工业披露
华为鲲鹏挑战赛题（2026 年版）：含 25 亿 × 256d 数据集、8× QPS 要求的工业级 benchmark
NVIDIA NVLink 文档：搜 “NVLink for AI infrastructure” —— GPU 间高速互联，与 UB 类似哲学
CXL Consortium：computeexpresslink.org —— CXL 标准与未来路线

框架文档

DiskANN GitHub：github.com/microsoft/DiskANN —— 含 distributed deployment 选项
Milvus Distributed Architecture：milvus.io/docs —— 工业级分片实现
Qdrant Cluster Mode：qdrant.tech/documentation/guides/distributed_deployment

本系列其它章节

上一章：第7章 Pancake 精读 3 GPU-CPU 协同动态索引（待写）
下一章：第9章开放问题与研究方法论 —— 6 大未解问题展开 + 给做研究的人的方法论
相关模块：模块十三新型互联与远程内存系统 —— RDMA / CXL / UB 硬件细节
相关模块：模块二十分离式内存事务系统全景调研 —— 一致性协议在分离式内存上的更深入讨论