跳到主要内容
🔐 分离式事务的动态锁所有权 13 篇文章 · 13 个章节

分离式事务的动态锁所有权

分离式事务的动态锁所有权相关技术文档

开始学习

章节目录

立题章。从单 MN + 多 CN 的扩展失败现场出发,拆解 RDMA atomic 原语在 NIC 内部的实现路径与硬件上限,解释 retry storm 的微观机制,建立动态锁所有权的命题
看 AURA 论文之前要打牢的概念地基:RDMA verbs 与 atomic 语义、ConnectX 各代行为差异、OCC 三阶段、CN/MN 数据流、masked CAS
把 LOTUS / FORD / Motor / CREST / 路由方案放进同一张设计空间矩阵,给出每个系统的 Δ 表与适用边界
拆解 AURA 的 12 个核心模块、cohort 数据结构、3 状态机(OWNED/TRANSFERRING/FALLBACK)与 4 个不变式(I1–I4),建立看完整论文的脚手架
拆解 AURA 的 AccessGraphProfiler / LockCohortGenerator / OwnershipPlanner 三件套:访问图怎么建、cohort 怎么 merge/split、owner 怎么放、滞回如何防抖动
AURA 4 阶段迁移协议的完整时序、epoch 单调性、不变式 I1–I4 的证明草图、关键 corner case(owner 故障 / 跨 cohort 事务 / 链式迁移)
AURA 控制面的两条反馈环(owner-side back-pressure / NIC counter ingestion)来自 AdaptX,5ms 窗口选定的频谱分析、抖动 vs 反应速度的工程权衡
baseline 设计、bootstrap CI 计算、negative regimes 写法、跨硬件 portability、reproducibility 套路;论文实验如何说服审稿人
从 reservation 申请到 bootstrap、构建、跑通、读 CSV、计算 bootstrap CI 的完整可复现路径;含 ConnectX-3 兼容性陷阱、Clash 路由、故障速查
把论文 §3.3 的 typed edges 从设计落到代码:C_ww/C_wr/C_rr 为什么必须区分、EWMA decay 0.99 的半衰期推导、RecordTxnFinish 钩点选择、thread_local 批量为何丢尾、merge_score = C_ww + α·C_wr 的 α 怎么定
从 union-find 贪心 merge 到 cohort_id 漂移,再到 Jaccard 继承让 cohort 语义稳定;朴素 O(|known|×|proposed|) 把控制线程冲飞、W14.h 倒排索引把候选集从 ~1500 砍到 ~50;最后用 4-CN W=4 实测交代『1229 个 cohort + 100% inheritance + LOCAL hit 反而崩到 0.30%』的反直觉收益
W14 让 cohort 稳定后,跨 CN 还差两件事:把事务路由到正确的 home_cn(W15 TransactionRouter + ProxyTxnQueue),以及让所有 CN 对『谁拥有哪个 cohort』达成共识(W16 access summary heartbeat + W18 plan consensus)。本章拆解两条路径的工程细节、为什么走 TCP 不走 RDMA、以及『全局一致反而比独立宇宙吞吐还差』的反直觉实测
W7.4-B 独立宇宙挣下的 +3.76% headline 在 W8.7 全局广播开启后掉到 +0.95%,W8.11 批广播只补回 0.11pp。真瓶颈不在 RPC 数量,在 per-Apply 的本地 OwnerMap.Publish 快照重建。本章用完整 ablation 表把这条折损链条讲透,引出『profile 之前不要盲优化』的一条工程铁律