AIInfra学习路线 2026年5月10日

Agent Memory 与向量检索的分离式协同学习路线

把分离式内存的硬件能力(RDMA / CXL / UB)落到 Agent Memory + 向量检索两个最具体的应用场景:上下文缓存、全局向量检索、超低内存量化检索——以鲲鹏 2026 公开路线为研究坐标系,做工程复盘 + 项目对照

Agent Memory 向量检索分离式内存 RDMA CXL UB 鲲鹏上下文缓存 RabitQ DiskANN

如果说模块十三把分离式内存的硬件底座讲透了、模块十四把多类型数据的统一管理讲透了——本模块要回答一个更具体的问题:当 Agent Memory 系统真正放上分离式内存这种新型硬件时,会发生什么?哪些痛点能被解决?哪些新问题被引入?当前最值得复盘的工业路线是哪条? 我们以鲲鹏团队 2026 年公开发表的 Agent Memory 创新方案(上下文缓存 + 基于 UB 内存池的全局向量检索 + 超低内存混合介质检索)为研究坐标系,把这条路线和学术界主流方案(Skill / Programming Tool Call / DiskANN / HNSW)放在同一张图上比较,识别项目第一、第二模块在这一具体场景下的工程对照点和差异化空间。

作者将根据该路线编写系列文章,帮助大家系统理解 Agent Memory 与分离式内存协同的工程地图。

🌟 全景:为什么 Agent Memory 需要分离式内存

分离式内存(Disaggregated Memory)——把内存从单机 DIMM 解耦成”跨节点共享池”,通过 RDMA / CXL / UB(华为统一总线)等高速互联协议访问——已经在数据库、KV pool 等场景被反复证明过价值。但 Agent Memory 系统是更复杂的应用:它同时有以下几个特点:

特点	含义
数据类型多	KV Cache、向量索引、对话历史、tool call trace、原始多模态对象一锅炖
访问模式异构	高频小数据(每 token 触发) + 低频大数据(召回原图)
规模可达 TB-PB	千亿级用户记忆库 + 数十 TB 向量索引 + 数百 TB 多模态原始数据
延迟敏感	金融、风控、工业场景往往要求 <50ms 召回
成本敏感	全部塞内存成本爆炸,纯下盘延迟爆炸

🌟 关键观察:分离式内存恰好命中了”容量大 / 跨节点共享 / 中等延迟” 这三个交叉点——它不是 HBM 的速度,但是 SSD 的容量加上接近内存的延迟,正好填补 Agent Memory 系统在容量和延迟之间最难的那段曲线。

🍎 直觉比喻:

HBM = 你座位上的便利贴(几张,极快)
DRAM = 你办公桌的小抽屉(够装一天的工作)
分离式内存(UB / RDMA pool)= 部门共享的资料柜——慢一点,但量大、跨人共享
SSD = 公司档案库(海量,慢)
对象存储 = 异地仓库(冷归档)

Agent Memory 真正的工程难题不是”用 HBM 还是用 SSD”——是**“那两段中间档怎么用得好”**。这正是本模块的腹地。

🚧 三大核心挑战速查

工业上做 Agent Memory 系统反复撞墙的三类问题(鲲鹏团队 2026 年公开方案对此有系统总结):

挑战 1:准确率

类型	体现
语义偏差	用户说”上次讨论的方案” → 系统得理解”上次”是几小时前不是字面”前一条”
上下文依赖	同一段记忆在不同场景下相关性差几个量级
噪声干扰	真实对话里大量寒暄、错字、重复——拉低召回质量

挑战 2:上下文过载

由于 Transformer 注意力机制的 O(n²) 复杂度,主流大模型的上下文窗口被严格限制(128K-1M tokens)。但 Agent 场景下上下文非常容易爆炸:

工具定义过载:把所有可用工具一次性灌进 prompt,几十 K tokens 可能纯花在工具定义上(鲲鹏团队公开数据:GitHub 35 工具 ~26K、Slack 11 工具 ~21K、合计 58 工具 ~55K tokens)
中间数据传递:有依赖关系的工具/Agent 之间,中间结果要走 LLM 上下文中转——多轮调用 token 数指数级增长

挑战 3:检索瓶颈

向量底库膨胀到 千亿规模、数百 TB 时,两个矛盾被放大:

延迟:50ms 内完成 top-k 召回——千亿级直接搜索通常要秒级
成本:全内存方案对冷数据是巨大浪费,纯下盘方案延迟爆炸

⭐ 观察:这三类挑战在分离式内存的视角下都有新的解法空间——上下文过载靠”中间数据搬出 LLM 上下文,放进分离式池”;检索瓶颈靠”内存池让大向量库不再被单机内存约束”;准确率则受益于跨节点共享带来的全局视图(替代分片后的局部最优)。

📖 章节导览

整个模块计划 8 章,从问题域到方案到对照,层层递进:

章	主题	核心问题
1	Agent Memory 为什么需要分离式内存	三大挑战 + 分离式内存的特殊位置
2	三大挑战的工业实证	token 消耗解剖、延迟分布、成本结构
3	业界主流缓解路线综述	上下文压缩 / 渐进式披露 / HNSW / DiskANN
4	鲲鹏路线 1:上下文缓存系统	中间数据搬出 LLM 上下文,基于 UB 内存池
5	鲲鹏路线 2:基于 UB 内存池的全局向量检索	替代分片检索的局部最优,完整 HNSW 整图
6	鲲鹏路线 3:超低内存混合介质向量检索	RabitQ + PCA + SIMD 紧凑索引,内存降 99%+
7	与项目第一/二模块的对照分析	鲲鹏路线 vs 我们的统一抽象 + LMObject
8	端到端实战参考与可借鉴的开源组件	OpenClaw / OpenViking 拼装路径

🗺️ 主流路线分类

把 Agent Memory + 向量检索这一具体场景的解法画一张地图:

Agent Memory 系统的"上下文 + 检索"问题
                │
   ┌────────────┼────────────┐
   ▼            ▼            ▼
上下文管理      检索系统       存储底座
   │            │              │
   │            │              │
路线 A          路线 B         路线 C
压缩 / 摘要     高效 ANN       传统单机内存
(信息有损)      (HNSW)         (容量有限)
   │            │              │
路线 A'         路线 B'        路线 C'
渐进式披露      磁盘化 ANN      远端内存池
(Anthropic     (DiskANN)      (RDMA / CXL / UB)
Skill /                          ⭐ 鲲鹏在这里
Tool Search)                     做了三套创新
   │            │              │
   │            │              │
   └────────────┼──────────────┘
                ▼
   "中间数据搬出上下文 + 整图全局检索 + 量化下盘"
   = 鲲鹏 Agent Memory 路线

🧠 关键结构:鲲鹏路线本质上是把”远端内存池”作为前面两类问题的共同底座——上下文缓存的中间数据存哪、向量检索的整图存哪,都用同一种新型硬件(UB 共享域内存池)解决。这是它的工程原创性所在。

⭐ 本模块研究问题:这个”共同底座”的工程模式,能不能从鲲鹏特定的硬件(UB)抽象到更通用的 RDMA / CXL 体系?和我们项目第一模块的 LMObject 统一抽象如何对接?——这是 Ch7 的对照分析章节要回答的。

🧭 与其它模块的关系

            模块五                   模块十三
         Agent Memory             新型互联与远程内存
         (上层语义)              (硬件底座 + 协议)
              │                          │
              └────┐                ┌────┘
                   ▼                ▼
            ┌─────────────────────────────┐
            │    本模块                    │ ← 在两者交叉口
            │  Agent Memory 与            │   做具体场景的工程复盘
            │  向量检索的分离式协同        │
            │  (鲲鹏路线 + 项目对照)       │
            └────────────┬────────────────┘
                         │
                ┌────────┴────────┐
                ▼                 ▼
          模块十四              项目第二模块
       长记忆大模型系统      分离式资源池化
       (跨层级管理框架)       (师兄方向)

模块	在哪一层	与本模块的关系
模块五 Agent Memory	上层语义(Episodic/Semantic)	本模块讲”这些上层语义记忆放分离式内存怎么放”
模块十三远程内存	硬件 + 协议	本模块讲”这些硬件具体怎么用在 Agent Memory 场景”
模块十四长记忆系统	跨层级管理框架(LMObject)	本模块的鲲鹏路线是 LMObject 的一个具体实现实例
第二模块(师兄方向)	分离式池化 + 索引访问 + 存算调度	本模块第 5、6 章是它的应用层证据