章节目录
三大挑战(准确率 / 上下文过载 / 检索瓶颈)在 Agent 落地中的具体表现 + 单机方案的天花板 + 分离式内存恰好填补的「中间档」+ 鲲鹏 2026 路线的整体思路概览
把 Ch1 的"准确率 / 上下文过载 / 检索瓶颈"三类挑战用真实工业数据落到桌面——token 消耗解剖、延迟分布、成本结构、SLA 违约场景,给后面 Ch3-Ch6 的方案对比提供可量化的基线
把 Anthropic Skill / Programming Tool Call / Tool Search / 上下文压缩 / HNSW / DiskANN / SPANN / RabitQ 等业界主流缓解方案放在同一张地图上,逐一标出能解什么、不能解什么——为后面 Ch4-6 鲲鹏路线"切的是哪条缝隙"提供精准定位
把"中间数据搬出 LLM 上下文"做成跨节点共享的工程底座——展开数据流、内存布局、典型负载下的延迟分布;和路线 D 单机上下文缓存做精确对照;给出可复现的最小工程骨架
用 UB 共享底座装下千亿级 HNSW 整图,避开 HNSW 分片方案的召回质量损失——展开整图布局、跨节点访问模式、典型 P99 延迟、以及与 HNSW 分片 / DiskANN / SPANN 的精确对照
把 RabitQ + PCA + SIMD 的量化体系叠在 UB + SSD 混合介质上,做到"1/100 内存 + 高召回"——展开量化算法链路、混合介质数据流、二阶段精排的延迟控制、与 Ch5 全局整图路线的工程互补
把鲲鹏 2026 三件套放在我们项目(长记忆分离式存储)第一/二模块(LMObject 统一抽象 + 分离式资源池化)的坐标系里——画清楚直接互补、重叠、可差异化创新的工程腹地,给项目设计提供精准的对照参照
把鲲鹏三件套 + 项目第一/二模块的方法论整合到一份可执行的"端到端实战路径"——OpenClaw + OpenViking + RDMA 集群的拼装方案、不需要 UB 硬件的等价复现策略、minimal viable benchmark 设计