知识库
系统化的 AI Infra 全栈核心技术学习文档
AIInfra学习路线 AIInfra学习路线
系统化的 AI Infra 学习路径与知识图谱
AIInfra前置基础 AIInfra前置基础
GPU 架构、计算机体系结构等核心前置知识
CUDA编程与算子优化 CUDA编程与算子优化
CUDA 编程模型、算子开发与性能优化
分布式训练 分布式训练
数据并行、模型并行与大规模分布式训练
推理优化 推理优化
模型压缩、量化加速与推理引擎优化
Agent Memory Agent Memory
Agent 长期记忆:分类法、论文、框架、评测、端到端实战
Agent Runtime Agent Runtime
Agent 怎么稳定跑起来:控制流、编排、Durable、事务、协议、observability
Agentic RL Agentic RL
Agent 怎么自我改进:PG/PPO/GRPO、RLVR、Tool RL、Multi-turn Async、训练框架、Search Agent 实战
Agent Eval Agent Eval
Agent 怎么客观评测:多维度框架、5 大 benchmark、LLM-as-Judge、Reward Hacking 防御、CI/CD
Computer Use Computer Use
Agent 操作真实软件:视觉 Grounding/VLA、三大商业 API、browser-use/Stagehand 开源框架、OSWorld 评测、电商实战
Code Agents Code Agents
Code Agent 实战栈:Cursor/Devin/Claude Code 商业产品、OpenHands/Aider 开源框架、SWE-Agent + ACI 论文、SWE-bench 评测、IDE/LSP 集成、训练与生产
Multi-Modal Multi-Modal
多模态 Agent:VLM(Qwen2.5-VL/InternVL/GPT-4o/Gemini)、视频音频 agent(Whisper/Realtime API)、MMMU 等评测、企业多模态助手实战
Agent Safety Agent Safety
Agent 安全工程:三层威胁、Jailbreak 攻防(GCG/PAIR/TAP)、Constitutional AI、Anthropic RSP / OpenAI Preparedness、garak 红队、端到端 red team 实战
新型互联与远程内存 新型互联与远程内存
新型互联与远程内存:RDMA verbs、CXL、分离式内存事务系统、训练侧参数池化、端到端 RDMA 集群实战
长记忆大模型系统 长记忆大模型系统
长记忆大模型系统:四类长记忆数据画像、HBM/DRAM/SSD 跨层级管理、统一表示、分层放置、自适应迁移、性能-成本协同
AI 系统性能工程方法论 AI 系统性能工程方法论
AI 系统性能工程方法论:Goodput、Mechanical Sympathy、NVL72 全景、跨层调优、案例研究、Ultra-Scale 趋势、175+ 项 Cheat Sheet
性能分析 性能分析
性能瓶颈定位、Profiling 工具与调优策略