跳到主要内容
Agent Memory ANN 系统

第8章:分布式多 Agent 记忆与一致性 —— d-HNSW / SHINE / CoTra / SPIRE / 鲲鹏 UB / Token Coherence

把 2025-2026 年分布式 / 分离式 Agent Memory ANN 这条最前沿的研究线讲清楚:从单机撞墙到分片方案的算力浪费、d-HNSW 在 RDMA 上的四大优化、SHINE 的可扩展协调、CoTra 的聚类感知路由、SPIRE 的精度保持索引、华为鲲鹏 UB 内存池的全局图方案、Token Coherence 把 MESI 协议搬到 Agent 同步。每个系统讲清它解决的具体痛点和留下的开放问题,最后用一节讲多 Agent 一致性这个还没收敛的研究问题。

分布式 分离式内存 RDMA CXL 鲲鹏 UB d-HNSW SHINE CoTra SPIRE Token Coherence 多 Agent 一致性

前面 7 章把单机 ANN 这条线讲透了——从静态算法、动态更新、应用层框架到 Pancake 的多级缓存设计。但所有这些工作都假设”一台机器装得下全部向量”。当库规模到 100 亿、千亿向量(768-4096 维 → 几十 TB 数据),这个假设破产。本章把 2025-2026 年最前沿的分布式 / 分离式 Agent Memory ANN 工作整体拉到一起:分片范式为什么算力浪费 13.6 倍、d-HNSW 用 RDMA 怎么把单查询压到 142 μs、SHINE 怎么解决分布式 HNSW 的图完整性、CoTra 的聚类感知路由、SPIRE 的精度保持构建、鲲鹏 UB 内存池的全局图方案、Token Coherence 把 cache 协议搬到 Agent 同步。每个系统给一段”它解决的痛点 + 核心技巧 + 留下的开放问题”,最后用一节讲清多 Agent 一致性这个还没收敛的研究问题——这一章是 Stage 5 离工业最近、也最适合做 OSDI/SOSP/FAST 论文 idea 的方向

📑 目录


1. 单机 ANN 为什么撞墙

1.1 三组硬数字

指标工业上限突破后
单机 DRAM主流服务器 1.5-2 TB;高端 4 TB装不下 100 亿 × 768d 向量 (~30 TB)
单机 NVMe SSD单盘 30 TB,单机 200 TBDiskANN 单机能撑 100 亿向量,但 P99 > 50 ms
单机网络出口100-400 Gbps多租户高 QPS 下出口饱和

🌟 关键事实100 亿向量级是工业 SLA 的”分水岭”——这个规模以上,单机方案要么内存装不下、要么延迟达不到 < 50 ms。

1.2 大模型时代为什么这个规模常见

2024-2026 几个数据点:

应用库规模
大型电商商品向量库10-100 亿
Bing/Google 网页 embedding100 亿+
字节系视频/广告 embedding100 亿+
长记忆 Agent(每用户百万记忆,1000 万用户)10 万亿

🍎 直觉对应:单机 ANN 像独栋别墅,能住一家三口;100 亿向量级是住一个小区,独栋肯定不够,必须建小区。

1.3 为什么不能简单分片

分片(sharding)是工业上 2018-2023 年的主流做法(Milvus、Vespa 都用这个):

全库 10 亿向量
   ↓ 分成 16 个 shard
shard 1: 6250 万   shard 2: 6250 万   ...   shard 16: 6250 万
   ↑                                              ↑
每个 shard 是独立单机 ANN(HNSW 或 IVF)

查询:每次 ─→ 路由器 ─→ 16 个 shard 并行搜 ─→ 归并 top-k

看起来不错,但有两个致命问题:

问题 1:算力浪费亚线性

每个 shard 单独搜,总算力 = 16 × 单 shard 算力。但搜索复杂度是 O(log N) 而非 O(N)——所以 16 个小 shard 比一个大 shard 算力多 13.6 倍(华为鲲鹏挑战赛 PDF 给出的数字,第 11 节会展开)。

节点数      1       2       4       8       16
总算力比   1.0x    1.9x    3.7x    7.1x    13.6x

问题 2:高召回需要每个 shard 都搜

如果 nprobe(搜几个 shard)< 16,召回率断崖式下降——真正最相关的向量可能在任意一个 shard 上。要 0.99 召回必须搜全部 shard。

🧠 关键洞察分片本质是”放弃了图索引的全局结构性”。HNSW 的层级导航在跨 shard 时失效,每个 shard 独立搜的结果汇总在质量上不等于全局 HNSW 搜索。

1.4 三条解决路径

为了避开分片的两个问题,研究界探索了三条路径:

路径 A:分片 + 智能路由     →  CoTra(聚类感知)
        只问最可能命中的 shard,减少算力浪费

路径 B:分离式内存 + 全局图  →  d-HNSW / SHINE / 鲲鹏 UB
        把图放进跨节点共享的内存池,保留全局结构

路径 C:精度保持的分布式构建  →  SPIRE
        构建时就考虑跨节点结构,归并阶段无损

后面 5 节展开这三条路径的代表性工作。


2. 三种分布式范式

2.1 总览

范式数据布局通信模型典型代表
分片每节点独立子库shared-nothing + RPC 路由Milvus, Vespa, Qdrant cluster
分离式内存全局图存在内存池RDMA / CXL 一边访问d-HNSW, SHINE, 鲲鹏 UB
混合(递归)多级索引按精度切分shared-everything + 协同构建SPIRE, HARMONY

2.2 三种范式的关键差异

分片:                    分离式内存:              递归多级:
                                                  
┌──────┐ ┌──────┐         ┌─────────────────┐    ┌─────────────────┐
│Shard1│ │Shard2│  ...    │   全局 HNSW 图    │    │   Level 0 (粗)  │
│      │ │      │         │   通过 RDMA 共享  │    └────────┬────────┘
└──────┘ └──────┘         └─────────────────┘             │
   ↑        ↑                      ↑                       ▼
   └────────┴───────              CPU                ┌──────────┐
   并行搜索 + 归并                  访问                │  Level 1  │
                                                    └─────┬─────┘

                                                    ┌──────────┐
                                                    │  Level 2  │
                                                    └──────────┘
全局结构: 无(独立小图)       全局结构: 有(一张大图)  全局结构: 部分(按级别)
算力: O(N) 全 shard           算力: O(log N) 单查询    算力: O(log N) + 跨级
延迟: 受最慢 shard 影响        延迟: 受 RDMA 影响       延迟: 受跨级跳转影响

🌟 关键判断2025-2026 年的研究热点是范式 B 和范式 C——范式 A(分片)在工业界已经成熟,但学术上几乎没有新空间。


3. d-HNSW:RDMA 上的第一个 vector search 系统

3.1 论文背景

d-HNSW: A High-performance Vector Search Engine on Disaggregated Memory(Liu, Fang, Qian, UC Santa Cruz, arXiv:2603.13591, March 2026)。

这是第一篇把 HNSW 完整搬到 RDMA disaggregated memory 上的工作。论文自称 “to the best of our knowledge, the first RDMA-based vector similarity search engine designed for disaggregated memory”。

3.2 系统架构

                          Compute Pool (3 节点)
                        ┌─────────────────────┐
                        │ CPU1   CPU2   CPU3  │
                        │  │      │      │    │
                        │  └──────┴──────┘    │
                        │       缓存层         │
                        └──────────┬──────────┘
                                   │ RDMA (one-sided READ)
                                   │ 100 Gbps
                        ┌──────────▼──────────┐
                        │ Memory Pool (1 节点) │
                        │  ┌────────────────┐ │
                        │  │  HNSW 全局图    │ │
                        │  │  (远端 DRAM)    │ │
                        │  └────────────────┘ │
                        └─────────────────────┘

Testbed:3 × Dell R650 作 compute + 1 × R650 作 memory,每台 2×36-core Xeon Platinum + 250 GB RAM + Mellanox ConnectX-6 100 Gb NIC。

3.3 三大挑战 + 四大技巧

d-HNSW 论文把分离式 HNSW 的难点拆成三个 challenge:

Challenge痛点d-HNSW 的解
C1: 减少网络 round-tripgreedy search 每步访问一个节点,跨节点访问数百~3000 次Representative index caching(meta-HNSW)
C2: 支持单边插入新向量插入要散布在远端内存里,碎片化严重RDMA-friendly graph layout(gap + 双 sub-HNSW)
C3: 高效批量操作批量查询里 sub-HNSW 重复传输,带宽浪费Query-aware batched loading(每 sub-HNSW 一次加载)

加上一个工程层的:

  • Pipeline 并行:把”网络获取 + sub-HNSW 内搜索”做成流水线

3.4 关键性能数据

数据集规模延迟vs baselineRecall
SIFT1M @ top-11M142 μs656× (vs d-Pyramid 97.65ms)94.24%
GIST1M @ top-11M1,172 μs730×79.63%
DEEP10M @ top-1010M1,824 μs188×93.93%
TEXT10M10M~7,800 μs-~88%

吞吐:SIFT1M 在 30 workers 下达 202K QPS(5→30 workers 近线性扩展)。

Ablation:从 Naïve(34.8 ms)→ + Regroup + Doorbell + Pipeline(80.9 μs),430× 加速

3.5 留下的开放问题(来自 d-HNSW 论文 limitations 章节 + 我们的实测)

#开放问题评级
1数据放置完全静态⭐⭐⭐⭐⭐
2无运行时 profiling⭐⭐⭐⭐⭐
3固定 beam search 参数⭐⭐⭐
4混合插入下吞吐退化 3.3×(论文 Fig.11 数据)⭐⭐⭐⭐⭐
5Rebuild 期间 QPS 降 63%(120s 窗口)⭐⭐⭐⭐

⭐⭐⭐⭐⭐ 标记的是最有论文 idea 价值的问题。RDMA-HNSW v2 / 自适应放置工作就是攻这些空白——本系列模块二十二第 9 章会展开。

🌟 结论:d-HNSW 是第一个把”分离式内存 + 向量搜索”完整工程化的工作——它定义了 baseline,留出大量优化空间。


4. SHINE:可扩展 HNSW + 分布式协调

4.1 论文背景

SHINE: A Scalable HNSW Index in Disaggregated Memory(Widmoser, Kocher, Augsten, arXiv:2507.17647, July 2025)。

SHINE 比 d-HNSW 晚 2 个月发表,但走了完全不同的路线:不缓存代表性索引,而是聚焦于 multi-node compute 下的图协调

4.2 核心思想:保持图完整性

d-HNSW 用 representative index caching——本质上是”缓存一份子图副本”,可能存在 staleness 问题。SHINE 反其道而行:

SHINE 假设:
1. 内存池里有一份 HNSW 全图,不切分
2. 多个 compute 节点都直接访问这份全图
3. 难点:多节点并发搜索 + 偶尔插入时的协调

SHINE 不做:
- 不在 compute 节点本地缓存图副本
- 不分图 (sub-HNSW)

🍎 直觉对应:d-HNSW 像每家自带一本字典副本(快但可能版本不同步);SHINE 像图书馆里只有一本字典,所有人共用(一致但要协调访问)。

4.3 关键技巧

  1. 分布式缓存协调:compute 节点共同维护一个 hot-set cache(哪些图节点被频繁访问)
  2. 无锁并发搜索:多个 compute 节点的搜索互不阻塞(搜索是只读)
  3. 协调插入:插入用乐观锁 + retry

4.4 与 d-HNSW 的对比

维度d-HNSWSHINE
图分片是(两个 sub-HNSW)否(一张全图)
本地缓存Representative indexHot-set 协调缓存
一致性静态动态协调
工程复杂度高(缓存管理)极高(分布式协调)
适用规模1M-100M100M-10B(理论)

4.5 留下的开放问题

  • ⚠️ 协调缓存有抖动:hot-set 切换时性能不稳定
  • 工业部署案例少:实验主要在合成数据上
  • ⚠️ 删除支持差:协调删除比插入更难

🌟 结论:SHINE 代表**“shared-everything”路线**,理论上更优雅但工程更难。它的开放问题恰好是 Pancake 通过”全局视角 + agent-aware 缓存”想解决的


5. CoTra:聚类感知 RDMA 路由

5.1 论文背景

CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA(Zhi et al., arXiv:2507.06653, July 2025)。

CoTra 走的是”路径 A:分片 + 智能路由”。它没有放弃分片,而是问:怎么让分片的算力浪费最小化

5.2 核心思想:用聚类做路由

传统分片:
  query → 全部 16 个 shard 并行搜 → 浪费 13.6×

CoTra:
  query → 用预聚类信息选 top-k 个 shard → 只搜这几个 shard

具体做法:

  1. 离线:对全库做 k-means,每个聚类中心记录”主要在哪个 shard”
  2. 查询时:先用 query 比 k-means 中心,找最相似的 top-N 个中心
  3. 路由:只把 query 发到这些中心所在的 shard

5.3 数据点

  • 16 节点 RDMA 集群上,CoTra 比朴素分片吞吐提升 2×+
  • Recall 几乎无损(top-N 路由参数足够大时)

5.4 留下的开放问题

  • ⚠️ 底库静态聚类:动态插入会让聚类失效
  • 负载不均:查询分布偏斜时某些 shard 过热
  • 不支持底库动态增删:聚类要重新做

🌟 结论:CoTra 是分片路线的优化器——能榨干分片范式的最后一点性能,但没法跳出分片的根本限制


6. SPIRE:精度保持的递归多级索引构建

6.1 论文背景

SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction(arXiv:2512.17264, December 2025)。

SPIRE 走的是”路径 C:精度保持的分布式构建”。它的核心问题:怎么在分布式环境下构建一个全局质量等同于单机的索引

6.2 核心思想:递归多级 + 跨级一致性

Level 0 (粗): k-means(K0),每簇约 N/K0 向量
Level 1 (中): 每个 L0 簇内做 k-means(K1)
Level 2 (细): 每个 L1 簇内做 HNSW

跨级一致性保证:
- L0 中心的选择基于全局视角(不是每节点独立)
- L1 划分确保边界不破坏 L0 簇内结构
- L2 HNSW 的图构建跨 L1 边界(不会丢失 boundary 向量)

🍎 直觉对应:SPIRE 像盖楼——先打地基(L0 划分要全局考虑),再建框架(L1 不破坏地基),最后填房间(L2 HNSW 不破坏框架)。

6.3 数据点

  • 在 80 亿向量上,46 节点构建吞吐比分片方案提升 9.64×
  • 召回与单机方案持平

6.4 留下的开放问题

  • ⚠️ 构建时间长:80 亿规模仍需小时级
  • ⚠️ 动态插入未充分研究
  • 跨级查询路径未优化

🌟 结论:SPIRE 是**“分布式索引构建”方向的代表**。它解决了”怎么建”,但”怎么用”还没充分回答。


7. 鲲鹏 UB 内存池:全局图方案

7.1 背景

华为在 2026 年提出基于 UB (Ultra Bandwidth) 互联的分离式内存方案。UB 是华为自研的高速互联,性能远超 RDMA:

维度RDMA (100 Gbps)鲲鹏 UB
单跳延迟~4 μs370 ns
带宽12.5 GB/s400 GB/s
适用场景跨机柜分离式超节点内分离式

🍎 直觉对应:RDMA 是城市间高铁;UB 是同一栋大楼里的电梯——后者快得多但范围有限。

7.2 鲲鹏方案:M 节点共享内存池

┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐    ┌──────┐
│CPU1  │ │CPU2  │ │CPU3  │ │CPU4  │... │CPU16 │
│   ◀──┼─┼──────┼─┼──────┼─┼──────┼────┼──▶   │
└──┬───┘ └──────┘ └──────┘ └──────┘    └──┬───┘
   │                  UB 互联             │
   │              (370 ns, 400 GB/s)      │
   └─────────────────────────────────────┘

         ┌─────────────────────────┐
         │  16 节点共享内存池       │
         │  (内存容量百 TB 级)      │
         │  HNSW 全局图 ───────────│
         └─────────────────────────┘

7.3 鲲鹏方案的三条路线

根据鲲鹏社区披露的 2026 年研究方向,他们同时在攻三块:

  1. 路线 1:上下文缓存系统(Agent 层优化)—— 减少 Agent 调用间的 token 浪费
  2. 路线 2:基于内存池的全局向量检索 —— 全局 HNSW + 单节点查询
  3. 路线 3:超低内存混合介质 —— RaBitQ+PCA+SIMD,内存降 99%(亿级 12GB → 100MB)

🌟 关键判断鲲鹏路线 2 是 d-HNSW 的”近距离硬件”版本——同样思路(全局图 + 单节点查询),但因为 UB 比 RDMA 快 10×,工程难度降一个量级。

7.4 鲲鹏挑战赛背景

华为公开过一个挑战赛题:

维度要求
硬件16 节点鲲鹏 CPU + 1.5TB/节点 + UB 互联
规模25 亿向量 × 256 维
性能检索 QPS 达到 baseline 的 8 倍
召回Top-100 @ recall 0.99
延迟< 50 ms
动态90% 检索 + 10% 增删时与 baseline 吞吐持平

Baseline 是 Faiss HNSW8× 是个很硬的目标——这正是 2026 年分布式 ANN 领域的”工业体温计”。

7.5 这条路线的开放问题

  • UB 是华为专有:研究成果迁移性受限(学界更习惯 RDMA / CXL)
  • ⚠️ 动态增删未充分公开:90/10 增删持平基线的具体方案未披露
  • 学术贡献空间:算法层(动态健康监控 + 自适应放置)适用于 UB / RDMA / CXL 任意一种

🌟 结论鲲鹏 UB 路线是分离式内存 ANN 的”硬件红利”——硬件好了一个量级,算法层的”难”和”巧”都被部分抹平。未来 2-3 年的研究热点会在”UB / CXL 2.0 时代怎么设计 ANN”


8. Token Coherence:把 MESI 协议搬到 Agent 同步

8.1 论文背景

Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems(arXiv:2603.15183, March 2026)。

前面 5 个系统都聚焦”向量检索本身怎么分布式”。Token Coherence 问了一个更高层的问题多个 Agent 共享记忆库时,怎么保证它们看到的状态是一致的

8.2 核心类比:MESI 缓存协议

MESI 是 1980 年代计算机架构里的经典缓存协议,定义了 4 个状态:

状态含义
M (Modified)这个缓存行被独占且修改过
E (Exclusive)独占但未修改
S (Shared)多核共享只读
I (Invalid)无效(需要重新读取)

Token Coherence 把这套搬到 Agent 记忆:

记忆项 m 的状态:
- M: 某个 Agent 正在独占修改 m(如 user 偏好更新)
- E: 某个 Agent 独占持有,可读可写
- S: 多个 Agent 共享只读
- I: m 已经被某个 Agent 改了,其他持有缓存的 Agent 需要重新拉

8.3 关键技巧

  1. Token 锁:每条记忆有一个”协调 token”,状态转换时 token 必须显式转移
  2. 失效通知:M→I 时主动广播给所有持有缓存的 agent
  3. 乐观读:读时不锁,只在结果使用时验证状态

8.4 这条路线为什么重要

🧠 关键洞察Token Coherence 是第一篇把”系统结构的成熟一致性协议”搬到 Agent Memory 的工作

它打开了一片新的研究空间:

  • 多 Agent 写冲突的形式化定义:哪些操作可以并发,哪些必须串行
  • 一致性级别的灵活配置:strong / sequential / eventual
  • 跨硬件层一致性:DRAM 缓存 / SSD 持久化 / RDMA 远端如何统一管理

8.5 留下的开放问题

  • 性能开销大:广播 invalidation 在多 agent 数百时延迟显著
  • ⚠️ 没考虑”近似”语义:ANN 本身是近似的,强一致性可能没必要
  • ⚠️ 与底层 ANN 索引脱耦不充分

🌟 结论:Token Coherence 是多 Agent 一致性问题的起点它把这个问题从”工程 hack”提升到”系统设计”的高度——但具体方案还不成熟。

8.6 配套 vision paper:CompArch 视角

同期还有一篇 vision paper:Multi-Agent Memory from a Computer Architecture Perspective(arXiv:2603.10062)。

它把整个 Agent Memory 系统类比为计算机内存系统:

计算机系统Agent Memory 系统
L1/L2/L3 CacheWorking / Recall / Archival
Page FaultMemory recall miss
Cache Coherence (MESI)Token Coherence
Memory BusRDMA / UB
DRAMVector store
DiskCold archive

🌟 关键判断这套类比是未来 2-3 年 Agent Memory 系统研究的”主导框架”。如果你做研究,把任何一个经典系统结构概念(virtual memory / cache coherence / DRAM controller)搬到 Agent Memory 都可能产出论文


9. 系统对比矩阵

9.1 7 个系统横向对比

系统范式适用规模单查询延迟多 Agent动态增删工程门槛
CoTra分片+路由100M-10B~5 ms⚠️
d-HNSW分离式 RDMA1M-100M142 μs⚠️⚠️ 退化 3.3×
SHINE分离式 RDMA100M-10B~1 ms⚠️极高
SPIRE递归多级1B-80B+~10 ms⚠️
鲲鹏 UB 全局图分离式 UB1B-10B估 < 1 ms高(硬件依赖)
Token Coherence一致性协议任意一致性开销✅ ⭐

关键发现没有任何一个系统在所有维度都最优。当前研究热点就在”组合不同优势”——比如把 Token Coherence 的多 agent 一致性 + d-HNSW 的 RDMA 优化 + SPIRE 的精度保持构建放进一个统一系统。

9.2 选型决策树

你的库规模?

├── < 100M ──────────→ 单机 HNSW(不需要分布式)

├── 100M-10B ────────→ 关心动态增删吗?
│                       ├── 是 ─→ SHINE 或 Pancake(参见第 5-7 章)
│                       └── 否 ─→ d-HNSW 或 CoTra

├── 10B-80B ─────────→ SPIRE(精度优先)
│                       或 鲲鹏 UB(如果有 UB 硬件)

└── > 80B ────────────→ 当前 open question(分片 + SPIRE 混合)


                                              ⭐ 论文 idea 富矿

多 Agent 共享:任何路线 + Token Coherence。


10. 多 Agent 一致性的开放问题

这一节单独拎出来讲,因为它是整个分布式 Agent Memory ANN 最不收敛的子方向——也是最适合做毕业论文的方向。

10.1 一致性谱系

强一致                                                              弱一致
  │                                                                  │
  ├── Linearizability        ─→ 严格 MESI、每次写全局可见             │
  ├── Sequential Consistency ─→ 所有 agent 看到的写顺序一致           │
  ├── Causal Consistency     ─→ 有因果关系的写按因果顺序              │
  ├── Eventual Consistency   ─→ 最终一致,过渡期 staleness 允许       │
  └── Recall-bounded ⭐      ─→ 我们提出的 ANN-specific 弱一致        │
                              "只要全局 recall 不低于阈值,怎么乱都行" │

🌟 关键创新点ANN 本身是近似的——所以一致性也可以是”近似的”。这是 ANN 系统独有的研究空间。

10.2 五个明确的开放问题

#开放问题已有探索论文价值
1多 Agent 写冲突的形式化定义Token Coherence (artifact 层)⭐⭐⭐⭐⭐
2Recall-bounded 一致性的理论模型我们的提案,未发表⭐⭐⭐⭐⭐
3跨硬件层一致性(DRAM ↔ RDMA ↔ SSD)Pancake 的多级 cache⭐⭐⭐⭐
4多 Agent 公平性 + 隔离MIRIX 应用层 ACL⭐⭐⭐⭐
5故障恢复下的一致性保证通用 Raft/Paxos⭐⭐⭐

10.3 一个具体的开放问题:Recall-bounded 一致性

形式化表述:

设有 K 个 Agent 共享一个 ANN 库 D。Agent i 的查询 q_i 在时刻 t 看到的库为 D_i^t(可能滞后于全局最新版本 D^t)。

定义:系统满足 (R, τ)-recall-bounded 一致性,当且仅当: ∀ i, ∀ q_i: Recall@k(ANN(D_i^t, q_i), KNN_k(D^t, q_i)) ≥ R, where staleness(D_i^t) ≤ τ。

问题:在给定硬件(RDMA / CXL / UB)和工作负载(写率、查询率)下,能保证的 (R, τ) 上下界是什么?

🧠 关键洞察:这个问题还没有任何论文给出过 closed-form 答案。如果你做这个方向,第 9 章会给具体的研究方法论。


✅ 自我检验清单

  • 单机撞墙:能说出”100 亿向量级 = 30 TB 数据”这个数字,并解释为什么单机装不下
  • 分片浪费:能解释为什么 16 个 shard 比一个大库总算力浪费 13.6×(不是 16×)
  • 三种分布式范式:能区分分片、分离式内存、递归多级三种范式的核心差异
  • d-HNSW 三大挑战:能口述减少 round-trip / 单边插入 / 批量操作三大挑战和对应技巧
  • d-HNSW vs SHINE:能说出两者在”是否缓存代表性索引”上的核心区别
  • CoTra 路由:能解释聚类感知路由怎么减少分片算力浪费
  • SPIRE 跨级一致性:能说出”L0 全局视角 → L1 不破坏 → L2 跨边界”的递归思路
  • UB vs RDMA:能背出 UB (370 ns) 和 RDMA (4 μs) 的延迟差异
  • Token Coherence 的 MESI 类比:能列出 M / E / S / I 四个状态在 Agent Memory 里对应什么
  • Recall-bounded 一致性:能描述这个 ANN-specific 弱一致性模型的形式化定义

📚 参考资料

概念入门

  • 模块十三 新型互联与远程内存系统本系列 —— 第 1-3 章 RDMA / CXL / UB 的硬件基础
  • 模块十六 Agent Memory 与向量检索的分离式协同本系列 —— 鲲鹏路线 1-3 的完整介绍
  • CMU “Cache Coherence Protocols” 课件:搜 CMU 15-418 —— MESI 协议的经典入门,理解 Token Coherence 必备

关键论文(按时间序)

2025 年开端

  • CoTra: Towards Efficient and Scalable Distributed Vector Search with RDMA(Zhi et al., 2025):arXiv 2507.06653
  • SHINE: A Scalable HNSW Index in Disaggregated Memory(Widmoser, Kocher, Augsten, 2025):arXiv 2507.17647
  • d-HNSW: Efficient Vector Search on Disaggregated Memory(Liu, Fang, Qian, HotStorage 2025):arXiv 2505.11783
  • HARMONY: A Scalable Distributed Vector Database(SIGMOD 2025):MIT DSpace
  • SPIRE: Scalable Distributed Vector Search via Accuracy Preserving Index Construction(2025):arXiv 2512.17264

2026 年最新

  • d-HNSW v2 (Extended)(Liu, Fang, Qian, March 2026):arXiv 2603.13591 —— 含完整系统设计和 12K LoC 实现
  • Token Coherence: Adapting MESI Cache Protocols to Multi-Agent LLM Systems(2026):arXiv 2603.15183
  • Multi-Agent Memory from a Computer Architecture Perspective(vision paper, 2026):arXiv 2603.10062

DistributedANN 工业级

  • DistributedANN: Microsoft Research’s 500 亿向量系统MSR
  • GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database(VLDB 2025):Tsinghua PDF

Surveys

  • Storage-Based ANNS Survey(IISWC 2025):atlarge-research.com PDF —— 含分布式 / 分离式章节
  • Disaggregated Memory: A Survey(搜索 arXiv 2024-2025)—— 硬件视角

行业讨论

  • 鲲鹏社区”鲲鹏在 Agent 记忆系统上的创新及实践”鲲鹏社区博客 —— UB 全局图方案的工业披露
  • 华为鲲鹏挑战赛题(2026 年版):含 25 亿 × 256d 数据集、8× QPS 要求的工业级 benchmark
  • NVIDIA NVLink 文档:搜 “NVLink for AI infrastructure” —— GPU 间高速互联,与 UB 类似哲学
  • CXL Consortiumcomputeexpresslink.org —— CXL 标准与未来路线

框架文档

本系列其它章节