跳到主要内容
AIInfra学习路线

Agent Memory 与向量检索的分离式协同 学习路线

把分离式内存的硬件能力(RDMA / CXL / UB)落到 Agent Memory + 向量检索两个最具体的应用场景:上下文缓存、全局向量检索、超低内存量化检索——以鲲鹏 2026 公开路线为研究坐标系,做工程复盘 + 项目对照

Agent Memory 向量检索 分离式内存 RDMA CXL UB 鲲鹏 上下文缓存 RabitQ DiskANN

如果说 模块十三 把分离式内存的硬件底座讲透了、模块十四多类型数据的统一管理讲透了——本模块要回答一个更具体的问题:当 Agent Memory 系统真正放上分离式内存这种新型硬件时,会发生什么?哪些痛点能被解决?哪些新问题被引入?当前最值得复盘的工业路线是哪条? 我们以鲲鹏团队 2026 年公开发表的 Agent Memory 创新方案(上下文缓存 + 基于 UB 内存池的全局向量检索 + 超低内存混合介质检索)为研究坐标系,把这条路线和学术界主流方案(Skill / Programming Tool Call / DiskANN / HNSW)放在同一张图上比较,识别项目第一、第二模块在这一具体场景下的工程对照点和差异化空间。

作者将根据该路线编写系列文章,帮助大家系统理解 Agent Memory 与分离式内存协同的工程地图。

📑 目录


🌟 全景:为什么 Agent Memory 需要分离式内存

分离式内存(Disaggregated Memory)——把内存从单机 DIMM 解耦成”跨节点共享池”,通过 RDMA / CXL / UB(华为统一总线)等高速互联协议访问——已经在数据库、KV pool 等场景被反复证明过价值。但 Agent Memory 系统是更复杂的应用:它同时有以下几个特点:

特点含义
数据类型多KV Cache、向量索引、对话历史、tool call trace、原始多模态对象一锅炖
访问模式异构高频小数据(每 token 触发) + 低频大数据(召回原图)
规模可达 TB-PB千亿级用户记忆库 + 数十 TB 向量索引 + 数百 TB 多模态原始数据
延迟敏感金融、风控、工业场景往往要求 <50ms 召回
成本敏感全部塞内存成本爆炸,纯下盘延迟爆炸

🌟 关键观察:分离式内存恰好命中了”容量大 / 跨节点共享 / 中等延迟” 这三个交叉点——它不是 HBM 的速度,但是 SSD 的容量加上接近内存的延迟,正好填补 Agent Memory 系统在容量和延迟之间最难的那段曲线。

🍎 直觉比喻:

  • HBM = 你座位上的便利贴(几张,极快)
  • DRAM = 你办公桌的小抽屉(够装一天的工作)
  • 分离式内存(UB / RDMA pool)= 部门共享的资料柜——慢一点,但量大、跨人共享
  • SSD = 公司档案库(海量,慢)
  • 对象存储 = 异地仓库(冷归档)

Agent Memory 真正的工程难题不是”用 HBM 还是用 SSD”——是**“那两段中间档怎么用得好”**。这正是本模块的腹地。


🚧 三大核心挑战速查

工业上做 Agent Memory 系统反复撞墙的三类问题(鲲鹏团队 2026 年公开方案对此有系统总结):

挑战 1:准确率

类型体现
语义偏差用户说”上次讨论的方案” → 系统得理解”上次”是几小时前不是字面”前一条”
上下文依赖同一段记忆在不同场景下相关性差几个量级
噪声干扰真实对话里大量寒暄、错字、重复——拉低召回质量

挑战 2:上下文过载

由于 Transformer 注意力机制的 O(n²) 复杂度,主流大模型的上下文窗口被严格限制(128K-1M tokens)。但 Agent 场景下上下文非常容易爆炸:

  • 工具定义过载:把所有可用工具一次性灌进 prompt,几十 K tokens 可能纯花在工具定义上(鲲鹏团队公开数据:GitHub 35 工具 ~26K、Slack 11 工具 ~21K、合计 58 工具 ~55K tokens)
  • 中间数据传递:有依赖关系的工具/Agent 之间,中间结果要走 LLM 上下文中转——多轮调用 token 数指数级增长

挑战 3:检索瓶颈

向量底库膨胀到 千亿规模、数百 TB 时,两个矛盾被放大:

  • 延迟:50ms 内完成 top-k 召回——千亿级直接搜索通常要秒级
  • 成本:全内存方案对冷数据是巨大浪费,纯下盘方案延迟爆炸

观察:这三类挑战在分离式内存的视角下都有新的解法空间——上下文过载靠”中间数据搬出 LLM 上下文,放进分离式池”;检索瓶颈靠”内存池让大向量库不再被单机内存约束”;准确率则受益于跨节点共享带来的全局视图(替代分片后的局部最优)。


📖 章节导览

整个模块计划 8 章,从问题域到方案到对照,层层递进:

主题核心问题
1Agent Memory 为什么需要分离式内存三大挑战 + 分离式内存的特殊位置
2三大挑战的工业实证token 消耗解剖、延迟分布、成本结构
3业界主流缓解路线综述上下文压缩 / 渐进式披露 / HNSW / DiskANN
4鲲鹏路线 1:上下文缓存系统中间数据搬出 LLM 上下文,基于 UB 内存池
5鲲鹏路线 2:基于 UB 内存池的全局向量检索替代分片检索的局部最优,完整 HNSW 整图
6鲲鹏路线 3:超低内存混合介质向量检索RabitQ + PCA + SIMD 紧凑索引,内存降 99%+
7与项目第一/二模块的对照分析鲲鹏路线 vs 我们的统一抽象 + LMObject
8端到端实战参考与可借鉴的开源组件OpenClaw / OpenViking 拼装路径

🗺️ 主流路线分类

把 Agent Memory + 向量检索这一具体场景的解法画一张地图:

Agent Memory 系统的"上下文 + 检索"问题

   ┌────────────┼────────────┐
   ▼            ▼            ▼
上下文管理      检索系统       存储底座
   │            │              │
   │            │              │
路线 A          路线 B         路线 C
压缩 / 摘要     高效 ANN       传统单机内存
(信息有损)      (HNSW)         (容量有限)
   │            │              │
路线 A'         路线 B'        路线 C'
渐进式披露      磁盘化 ANN      远端内存池
(Anthropic     (DiskANN)      (RDMA / CXL / UB)
Skill /                          ⭐ 鲲鹏在这里
Tool Search)                     做了三套创新
   │            │              │
   │            │              │
   └────────────┼──────────────┘

   "中间数据搬出上下文 + 整图全局检索 + 量化下盘"
   = 鲲鹏 Agent Memory 路线

🧠 关键结构:鲲鹏路线本质上是把”远端内存池”作为前面两类问题的共同底座——上下文缓存的中间数据存哪、向量检索的整图存哪,都用同一种新型硬件(UB 共享域内存池)解决。这是它的工程原创性所在。

本模块研究问题:这个”共同底座”的工程模式,能不能从鲲鹏特定的硬件(UB)抽象到更通用的 RDMA / CXL 体系?和我们项目第一模块的 LMObject 统一抽象如何对接?——这是 Ch7 的对照分析章节要回答的。


🧭 与其它模块的关系

            模块五                   模块十三
         Agent Memory             新型互联与远程内存
         (上层语义)              (硬件底座 + 协议)
              │                          │
              └────┐                ┌────┘
                   ▼                ▼
            ┌─────────────────────────────┐
            │    本模块                    │ ← 在两者交叉口
            │  Agent Memory 与            │   做具体场景的工程复盘
            │  向量检索的分离式协同        │
            │  (鲲鹏路线 + 项目对照)       │
            └────────────┬────────────────┘

                ┌────────┴────────┐
                ▼                 ▼
          模块十四              项目第二模块
       长记忆大模型系统      分离式资源池化
       (跨层级管理框架)       (师兄方向)
模块在哪一层与本模块的关系
模块五 Agent Memory上层语义(Episodic/Semantic)本模块讲”这些上层语义记忆放分离式内存怎么放”
模块十三 远程内存硬件 + 协议本模块讲”这些硬件具体怎么用在 Agent Memory 场景”
模块十四 长记忆系统跨层级管理框架(LMObject)本模块的鲲鹏路线是 LMObject 的一个具体实现实例
第二模块(师兄方向)分离式池化 + 索引访问 + 存算调度本模块第 5、6 章是它的应用层证据

核心定位:本模块站在”上层 Agent Memory”和”底层分离式内存”之间的工程接缝——其它模块给抽象,本模块给一条具体可学习的路线。


🚀 新人破局指南

研究 Agent Memory 应用层、想了解硬件能给自己什么 ➜ 第 1、2 章看完就够,知道分离式内存能解什么痛点

研究分离式内存、想知道 Agent Memory 是不是一个好的 killer use case ➜ 第 4、5、6 章重点看,鲲鹏给的三套数字是直接证据

做项目示范系统(LMObject + 第二模块分离式池化) ➜ 第 7 章是腹地,第 4、5 章作为基线对照

面试 Agent Infra / 大模型 Infra 高级岗 ➜ 第 1-3 章覆盖 80% 题目,第 4-6 章是加分项


📚 参考资料

主要参考路线

  • 鲲鹏 Agent Memory 创新方案(华为鲲鹏团队 2026 公开发表):上下文缓存 + 全局向量检索 + 超低内存混合介质检索三件套
  • OpenClaw + OpenViking + 鲲鹏端到端 Agent 实践(2026)

经典 ANN 算法

  • HNSW(Malkov & Yashunin, TPAMI 2018) —— 主流图索引
  • DiskANN(Microsoft NeurIPS 2019) —— 磁盘友好 ANN 奠基
  • SPANN(Microsoft NeurIPS 2021) —— 聚类索引大规模实现
  • RabitQ(2024) —— 旋转 + 二值化的近似量化算法
  • PCA(经典统计降维) —— 配合 RabitQ 用作粗排压缩

上下文管理路线

  • Anthropic Skill / Programming Tool Call / Tool Search Tool —— 渐进式披露代表方案
  • Sub-Agent + Tool Calling 协议(MCP / OpenAI tools / Claude tools)
  • 上下文压缩研究(摘要 / 重要性评分 / 结构化压缩,多篇综述)

行业资源

  • OpenClaw:开源 Agentic AI 框架(2026)
  • OpenViking:Agent 编排平台(鲲鹏联合方案)
  • MCP 协议:Anthropic 工具调用标准

本系列其它模块