📦 长记忆大模型系统 12 篇文章 · 12 个章节

长记忆大模型系统

长记忆大模型系统相关技术文档

章节目录

从短轮次交互到持续学习/复杂推理/智能体任务、四类长记忆数据的画像、四个异构特征、现状割裂管理的代价,以及统一表示与跨层资源映射的研究路径

把四类长记忆数据(KV / 向量 / 多模态 / 推理状态)的访问模式做成可量化的指纹:六维通用框架 + 每类数据的具体模型 + 全栈 profile 工具链建议

HBM3e / DRAM / 远端 RDMA pool / NVMe SSD 四档存储介质的延迟、带宽、容量、单位成本——给放置算法的物理底座

AttentionStore / LMCache / InfiniGen / CacheGen / Pensieve 五大代表方案精读 + 横向能力矩阵 + 给本项目的整合启示

DiskANN / SPANN / FreshDiskANN / Filtered DiskANN / AlayaDB 五大代表方案 + 图索引 vs 聚类索引的访存差异 + 长记忆向量库的特殊设计准则

embedding 与 blob 双流共生模型 + 列式多模态格式(Lance/Parquet) + 多模态向量库 + CLIP-style 检索 + GPUDirect Storage 直通——长记忆系统里多模态那一档怎么落地

Agent 推理树 / scratchpad / tool call trace / 多 agent 协作日志的存储设计 + 现有框架做法 + 数据库视角的可借鉴经验 + 八条设计准则——长记忆系统里学术几乎空白的一档

把四类长记忆数据(KV / 向量 / 多模态 / 推理状态)抽象到同一个 metadata + placement + migration 接口——项目第一模块最核心的科学问题

静态启发式 / 周期性 LP / 在线启发式 / 监督学习预测器 / 强化学习——四档放置算法的设计、组合与多 SLO 约束处理

迁移触发条件、批量化与流水化、读写放大效应、保序与一致性、冷热演化路径、跨节点迁移——长记忆数据从生到死的完整流动学

单 token 边际成本的精确定义、成本模型四件套、性能-成本 Pareto 曲面、SLO 约束嵌入、预算分配、在线优化算法——把申报书的「低成本」从口号变成可计算的工程目标

项目示范系统整体架构 + 代码骨架 + 长记忆混合负载基准 + 评测指标 + 完整实验流程——把前 11 章串成可落地、可复现、可发表的工程设计