07. AlayaDB — LLM-aware 长上下文向量库

元数据

论文/系统:AlayaDB(HKUST,2025;具体最终发表场所以官方信息为准)
关键词:LLM-native vector DB、attention-driven retrieval、long context、agent memory store

⚠️ 本笔记基于公开预印本/项目页二次资料——需精读后核实数字。

一句话精髓

不是把传统向量库接到 LLM 后面,而是从 attention 算子的视角重新设计向量库——让”检索”和”注意”成为同一件事。

解决的问题

把”长上下文”塞 prompt 太贵,把外部记忆”RAG 出来再拼回 prompt”又粗糙。AlayaDB 要做的是:

让 LLM 在生成的每一步都能从外部记忆库精确”召回”少数 token
召回不再是”先检索 → 再 cross-encoder rerank → 再拼 prompt”,而是直接和 attention 融合
长记忆库本身的存储 / 索引 / 调度针对 LLM 访问模式优化

关键 idea(我整理的若干推断,需精读核实)

设计	内容
LLM 原生检索算子	不走 cosine top-k → rerank 的二阶段,直接给 attention 提供候选
多层级存储	热向量 / 冷向量 / 原始 token 各自分级存储
attention sparsity 引导	只把 attention 真正会用到的 token 拉进 KV
agent 友好接口	写入 / 更新 / 召回的语义对接 agent 的 episodic / semantic 记忆

关键架构图(我推画)

   ┌─────────────────────────────────────┐
   │ LLM Decoder(生成第 t 个 token)     │
   └────────────┬─────────────────────────┘
                │  attention 候选请求
                ▼
   ┌─────────────────────────────────────┐
   │ AlayaDB 检索算子                     │
   │ (替代/补充传统 attention 的 KV)      │
   └────────────┬─────────────────────────┘
                │
       ┌────────┼────────┬────────────┐
       ▼        ▼        ▼            ▼
     HBM      DRAM     SSD          (远端)
     (hot     (warm    (cold        (跨节点)
      KV)     vecs)    vecs)

局限

系统级新概念,生态成熟度远不如 Faiss / Milvus / DiskANN
“attention 算子级集成”对模型代码侵入大,落地需要框架协同
学术 prototype 阶段,工业部署经验有限
多模态、跨语言场景的数据组织还不清晰

对本项目的启示

🌟 第一模块”统一抽象”路线最值得对标的近期工作——AlayaDB 已经在做”向量索引和 LLM 推理同构”。我们差异化:

把 KV cache 和向量索引放进同一个抽象:AlayaDB 偏向量,我们要让 KV 块也成为这个抽象的成员——“长记忆 = 多类型可检索数据”
多模态扩展:AlayaDB 主攻文本向量,我们要把图像 / 音频 embedding + 原始 blob 也纳入
token 单位成本:AlayaDB 优化召回质量,我们更进一步给”每 token 召回成本”建模
生产场景适配:AlayaDB 偏研究原型,我们对接电信生产场景的容量 / 延迟 / 可靠性 SLA
协作而非竞争:AlayaDB 可以作为”向量召回算子”的现成组件,被纳入我们的统一调度器

横向对比

系统	检索 vs 推理关系	适用场景
传统 RAG + Faiss	完全解耦,粗粒度	一次性问答
HippoRAG	加 KG,改进 retrieval 质量	多跳推理
Mem0 / Letta / A-MEM	Agent memory 语义层	Agent 长会话
AlayaDB	算子级集成	长上下文 LLM 原生
本项目目标	AlayaDB 思路 + 多类型 + 生产级	电信级长记忆

待精读 / 待澄清

AlayaDB 的”算子级集成”是否需要改模型代码,还是 inference engine 侧 hook
与 vLLM / SGLang 的对接现状
它的 hot/cold 分级靠什么 signal(LLM 自己提供还是统计)
多模态扩展计划
性能数字(召回延迟、命中率、token 成本)

07. AlayaDB — 基于 DiskANN 的产品化向量库

搜索