跳到主要内容

实战 / 研究笔记

研究笔记

按研究项目组织的论文笔记 + 调研清单——和教程模块、项目档案互相反向引用。

长记忆分离式存储(与中国电信联合申报)

项目文档

项目入口:长记忆大模型系统的低成本高可靠分离式资源管理

与中国电信联合申报的研究项目;三大模块的调研笔记入口(KV / 向量 / 多模态 + 跨层级管理 + 分离式池化 + 容错)

阅读清单

第二模块调研清单 — 分离式资源池化 + 索引访问 + 存算调度

项目第二模块(师兄方向)的论文阅读优先级与差异化重点——和模块十三高度重叠,本清单只列差异化精读项

阅读清单

第三模块调研清单 — 低成本容错 + 冗余保护 + 故障恢复

项目第三模块(学弟方向)调研清单——KV cache / 向量库容错、冗余编码、检查点优化、故障检测

论文笔记 USENIX ATC 2024

01. AttentionStore — KV 三级缓存 + 跨会话复用

USENIX ATC 2024 — KAUST + 阿里。把 KV cache 做成 HBM/DRAM/SSD 三级层级 + 跨多轮对话的 prefix 复用

论文笔记 open-source production system

02. LMCache — 跨实例 / 跨层级 KV 复用池

University of Chicago 开源 production system + 配套多篇论文(CacheGen 是其压缩组件)

论文笔记 OSDI 2024

03. InfiniGen — 自适应 KV 卸载与检索

OSDI 2024 — 用 attention pattern 预测哪些 KV 该被驱逐 / 召回

论文笔记 SIGCOMM 2024

04. CacheGen — KV cache 高效压缩与传输

SIGCOMM 2024 — 把 KV cache 压缩到比原始小一两个数量级,让跨节点传输不再是瓶颈

论文笔记

05. Pensieve — 多模态 Agent 长记忆系统设计

多模态 Agent 端到端长记忆系统的工程设计与实证

论文笔记 NeurIPS 2019

06. DiskANN — 磁盘友好的向量近似最近邻

Microsoft NeurIPS 2019 — 把向量索引迁到 SSD,10x 容量、几乎不掉延迟

论文笔记

07. AlayaDB — 基于 DiskANN 的产品化向量库

DiskANN 思想的产品化:增量更新、过滤检索、运维工具链

论文笔记 ICML 2023

08. FlexGen — 单卡跑大模型推理的离线优化

ICML 2023 — 在内存受限单卡上做 throughput-oriented 推理调度