实战 / 研究笔记
研究笔记
按研究项目组织的论文笔记 + 调研清单——和教程模块、项目档案互相反向引用。
长记忆分离式存储(与中国电信联合申报)
项目文档
项目入口:长记忆大模型系统的低成本高可靠分离式资源管理
与中国电信联合申报的研究项目;三大模块的调研笔记入口(KV / 向量 / 多模态 + 跨层级管理 + 分离式池化 + 容错)
阅读清单
第二模块调研清单 — 分离式资源池化 + 索引访问 + 存算调度
项目第二模块(师兄方向)的论文阅读优先级与差异化重点——和模块十三高度重叠,本清单只列差异化精读项
阅读清单
第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复
项目第三模块(学弟方向)调研清单——KV cache / 向量库容错、冗余编码、检查点优化、故障检测
论文笔记 USENIX ATC 2024
01. AttentionStore — KV 三级缓存 + 跨会话复用
USENIX ATC 2024 — KAUST + 阿里。把 KV cache 做成 HBM/DRAM/SSD 三级层级 + 跨多轮对话的 prefix 复用
论文笔记 open-source production system
02. LMCache — 跨实例 / 跨层级 KV 复用池
University of Chicago 开源 production system + 配套多篇论文(CacheGen 是其压缩组件)
论文笔记 OSDI 2024
03. InfiniGen — 自适应 KV 卸载与检索
OSDI 2024 — 用 attention pattern 预测哪些 KV 该被驱逐 / 召回
论文笔记 SIGCOMM 2024
04. CacheGen — KV cache 高效压缩与传输
SIGCOMM 2024 — 把 KV cache 压缩到比原始小一两个数量级,让跨节点传输不再是瓶颈
论文笔记
05. Pensieve — 多模态 Agent 长记忆系统设计
多模态 Agent 端到端长记忆系统的工程设计与实证
论文笔记 NeurIPS 2019
06. DiskANN — 磁盘友好的向量近似最近邻
Microsoft NeurIPS 2019 — 把向量索引迁到 SSD,10x 容量、几乎不掉延迟
论文笔记
07. AlayaDB — 基于 DiskANN 的产品化向量库
DiskANN 思想的产品化:增量更新、过滤检索、运维工具链
论文笔记 ICML 2023
08. FlexGen — 单卡跑大模型推理的离线优化
ICML 2023 — 在内存受限单卡上做 throughput-oriented 推理调度