跳到主要内容
开源 AI Infra 学习指南

AI Infra Guide

从零开始深入理解 AI Infra 的全栈核心技术(持续更新中)

从底层的 CUDA 编程到模型的分布式训练和推理优化,构建完整的 AI Infra 知识体系

知识库

系统化的 AI Infra 全栈核心技术学习文档

AIInfra学习路线

系统化的 AI Infra 学习路径与知识图谱

11 篇文章 探索

AIInfra前置基础

GPU 架构、计算机体系结构等核心前置知识

20 篇文章 探索

CUDA编程与算子优化

CUDA 编程模型、算子开发与性能优化

9 篇文章 探索

分布式训练

数据并行、模型并行与大规模分布式训练

8 篇文章 探索

推理优化

模型压缩、量化加速与推理引擎优化

9 篇文章 探索

Agent Memory

Agent 长期记忆:分类法、论文、框架、评测、端到端实战

9 篇文章 探索

Agent Runtime

Agent 怎么稳定跑起来:控制流、编排、Durable、事务、协议、observability

9 篇文章 探索

Agentic RL

Agent 怎么自我改进:PG/PPO/GRPO、RLVR、Tool RL、Multi-turn Async、训练框架、Search Agent 实战

9 篇文章 探索

Agent Eval

Agent 怎么客观评测:多维度框架、5 大 benchmark、LLM-as-Judge、Reward Hacking 防御、CI/CD

9 篇文章 探索

Computer Use

Agent 操作真实软件:视觉 Grounding/VLA、三大商业 API、browser-use/Stagehand 开源框架、OSWorld 评测、电商实战

9 篇文章 探索

Code Agents

Code Agent 实战栈:Cursor/Devin/Claude Code 商业产品、OpenHands/Aider 开源框架、SWE-Agent + ACI 论文、SWE-bench 评测、IDE/LSP 集成、训练与生产

10 篇文章 探索

Multi-Modal

多模态 Agent:VLM(Qwen2.5-VL/InternVL/GPT-4o/Gemini)、视频音频 agent(Whisper/Realtime API)、MMMU 等评测、企业多模态助手实战

6 篇文章 探索

Agent Safety

Agent 安全工程:三层威胁、Jailbreak 攻防(GCG/PAIR/TAP)、Constitutional AI、Anthropic RSP / OpenAI Preparedness、garak 红队、端到端 red team 实战

6 篇文章 探索

新型互联与远程内存

新型互联与远程内存:RDMA verbs、CXL、分离式内存事务系统、训练侧参数池化、端到端 RDMA 集群实战

8 篇文章 探索

长记忆大模型系统

长记忆大模型系统:四类长记忆数据画像、HBM/DRAM/SSD 跨层级管理、统一表示、分层放置、自适应迁移、性能-成本协同

12 篇文章 探索

AI 系统性能工程方法论

AI 系统性能工程方法论:Goodput、Mechanical Sympathy、NVL72 全景、跨层调优、案例研究、Ultra-Scale 趋势、175+ 项 Cheat Sheet

12 篇文章 探索

性能分析

性能瓶颈定位、Profiling 工具与调优策略

0 篇文章 探索