第3章感知 ≠ 认知 ≠ 记忆——三股应用压力同向汇合

1. 一个集体浮现的瓶颈

如果只看 2024 - 2026 年某一条应用线的进展，会很容易得到”这只是某个领域的工程问题”的印象：

做家庭机器人的人会告诉你：“长程任务调度难做。”
做自动驾驶的人会告诉你：“被遮挡的车辆轨迹推断不稳定。”
做 XR 的人会告诉你：“虚拟内容跨会话重定位漂移。”

每一句话听起来都是某个垂直领域的具体技术挑战。但只要把这三句话并列起来，背后那个共同形状就立刻浮出水面：

它们都在问同一个问题——“当世界持续变化、观测并不完整时，系统如何维护一个可更新、可校准、可追溯的状态？”

这不是巧合。这一章要讲清楚：为什么三股看起来无关的应用力量，会在同一时间段内集体撞上同一堵墙；这堵墙的本质是什么；以及为什么”再训一个更强的视觉模型”无法把它推倒。

2. 感知不是认知，认知不是记忆

要分析这堵墙，必须先把三个常被混在一起的概念拆开。

2.1 三件事的问题类型不同

层	处理对象	典型问题	失败时的形态
感知 (Perception)	当前输入	”现在画面里有什么？“	漏检 / 误检 / 类别错
认知 (Cognition)	输入间的结构	”这些观测之间是什么关系？“	关系搞反 / 区域归属错 / 拓扑断裂
记忆 (Memory)	跨时间的信念	”这件事现在还成立吗？“	自信地引用过期状态

最右边一列尤其值得注意。三层的失败模式性质完全不同——感知的失败是”看不到 / 看错了”，用户能立刻意识到；认知的失败是”关系搞反了”，下游推理会显得别扭；记忆的失败是沉默的过期——系统没意识到自己回答的是昨天的世界。

2.2 把它们等同的代价

业内反复出现的一个误读是：

“我们的视觉模型已经很强了——它能识别物体、能描述场景、能回答空间关系问题。所以空间智能的问题已经基本解决。”

这句话错在哪里？错在它默认感知能力的提升等价于认知和记忆能力的提升。但这两件事没有任何天然耦合：

一个能在 1 秒内识别桌上 30 个物体的视觉模型，不会自动知道哪个物体是 5 分钟前刚出现的、哪个是 2 小时前就在那里的
一个能描述”杯子在桌子左侧”的 VLM，不会自动记得 10 分钟前用户说过”杯子已经被洗了不要再用”
一个能渲染高保真三维重建的 NeRF / 3DGS 系统，完全不维护对象身份、容器关系和置信度衰减

这些”不会自动”的事情，正是认知和记忆要单独承担的。把感知能力的提升当成”全栈进步”，等价于看着一辆车的轮子越做越好就以为整车性能也跟着提升——但车的瓶颈可能在传动、悬挂、底盘上。

2.3 一个关于”亿点带宽差”的提醒

Zheng 与 Meister 关于人类认知吞吐量的研究 [11]，给出了一个非常震撼的数字：

感官输入带宽 ≈ $10^9$ bits/s
认知 / 行为有效带宽 ≈ $10$ bits/s
中间相差 8 个数量级

这个估算可以质疑、可以修正，但它传达的核心结构很难否认：

智能不在于能保存所有输入，而在于能把高维观测筛 (sift) 成少量可用于认知决策的状态变量。

把这个原理放到 AI 系统里：你的摄像头一秒输入 30 帧 1080p 图像（≈ $10^9$ bits/s 量级），你的 Agent 在做决策时实际依赖的”我现在相信什么”的状态变量，可能只是几十个对象、几条关系、几个置信度——量级也接近 $10$ bits/s。

中间这 $10^8$ 倍的压缩比，就是认知层和记忆层在做的事。它们的核心任务不是”看得更多”，而是”把看到的高维内容压缩成可用于行动的低维状态”——并随着时间不断校准这个状态。

任何一个想跳过这层的工程方案，本质上都是在违反这个 $10^8$ 倍带宽差的物理规律。

3. 三股应用压力：殊途同归撞上同一堵墙

接下来我们看为什么具身智能、自动驾驶、XR 这三条看起来不同的应用线会在 2024-2026 年同时把这堵墙推到台前。

3.1 具身智能：长时任务把记忆变成必需品

短任务和长任务的分水岭

具身智能在过去两年的变化最直观：

2022-2023 阶段：演示视频的核心叙事是”机器人能看懂场景 + 执行单步指令”。这一阶段不需要太多记忆——指令短、上下文小、任务一帧或几秒就能完成。
2024-2026 阶段：叙事换成了”机器人能跨房间、跨小时、跨多个工具完成任务”。这一阶段不可能再用”几秒上下文”撑下去——任务横跨的时间和空间，让”现在记得什么”成为决定性能的核心变量。

几个具体场景

举几个让”记忆”从可选变成必需的真实任务：

找回任务：“去把我刚才放在卧室梳妆台上的那个充电器拿过来。” —— 系统必须记得”刚才”是什么时候、卧室梳妆台是哪里、那个充电器具体长什么样。
状态核查任务：“出门前把家里所有窗户都关一遍。” —— 系统必须保留每个窗户的最近一次状态观测，并能区分”我看到它是关的”和”我没去过那个房间”。
学习失败任务：“上次你帮我倒水洒了，这次小心点。” —— 系统必须记得为什么上次失败了（杯子位置 / 倾斜角度 / 水流速度），不只是”上次失败了”这个事实。
多日跨度任务：“这个植物三天没浇水了，今天该浇了。” —— 系统必须保留某个对象的事件序列和时间间隔，而不只是它的当前状态。

这些任务有一个共同结构：当前帧不够。即使你的 VLM 强到能完美描述当前画面，也回答不了这些问题——因为答案根本不在当前画面里。

学界的回应

具身智能领域已经在大量工作里反复确认这件事：

DAAAM [13] 把场景图扩展到时间维度——给每个对象、每条关系打时间戳，作为可查询的时空记忆
Mind Palace [49] 直接把机器人长期观测组织成”层级场景图 + 跨时间链接”的结构，专门服务长时具身问答
MemoryVLA / RoboMemory [48, 53] 在 VLA 模型里引入显式记忆模块，证明长程操控任务上记忆模块带来的提升远超模型规模
S3-Bench / EMemBench [39, 41] 把”流式空间问答”和”情景记忆”作为单独 benchmark，发现纯感知模型在这两类任务上几乎全军覆没

这些工作的共同信号是：具身智能社区已经普遍接受”上下文窗口扩大”无法替代”结构化跨时间记忆”——它们是两件不同的事。

3.2 自动驾驶：从单车实时状态到车队级长期经验

短时间维度：被遮挡的目标也得算进规划

自动驾驶里最早出现的”记忆需求”，是单车实时状态维护：

遮挡推理：一辆车被前方货车短暂挡住——它没消失，规划器必须把它的预测轨迹纳入冲突检测
跨帧身份维持：行人从视野左侧走到右侧的过程中可能短暂被路灯杆遮挡——系统必须知道”这是同一个行人”，而不是”一个行人消失了，另一个行人出现了”
意图持续追踪：另一辆车的转向灯打了 5 秒——这个意图必须被持续维持，即使最近 1 秒画面里看不到那个转向灯了

这层需求在工程上催生了 3D Occupancy、BEV 表征、4D Occupancy Forecasting 等技术 [74, 75]。它们的本质是把道路环境表示为”可随时间演化、可预测、可规划的时空状态场”。

长时间维度：道路本身也有”经验”

更有意思的是 2024-2026 年浮现的另一层需求：车队级、地点级、时段级的长期经验记忆。

熟练的人类司机不只看当前传感器输入。他还会用一种很难显式说出来但确实存在的”经验”驾驶：

“这条车道下午经常被右转车辆堵住——我提前两公里就该变道。”
“那个路口行人会突然从遮挡后出现——我经过时本能减速。”
“某段匝道合流总是比地图规则更激进——我必须更主动让行。”

这些经验不属于”单车单次行驶的实时状态”，它们属于地点和时段绑定的长期模式。把它们工程化，就形成了几条相对成熟的产业路径：

Lanelet2 [76]：高精地图作为”前次行驶知识”的载体，可以在传感器看不见或不可靠的部分提供回退依据
Mobileye REM [77]：用大量量产车的实时观测众包更新道路语义、交通规则、驾驶习惯
fleet learning [78, 79]：从大规模车队的轨迹、干预、风险事件、通行效率数据中学习规划和预测策略

这些方向的共同假设是：单车的实时感知 + 静态地图 ≠ 真正可用的驾驶状态。 你必须再加一层”地点级、长期、可更新的道路经验”——这就是车队级空间记忆。

自动驾驶视角的两层空间记忆

把上面两段合在一起，自动驾驶其实需要的是两层叠在一起的空间记忆：

层级	时间尺度	状态对象	工程载体
单车实时层	秒 - 分钟	周边车辆 / 行人 / 静态障碍物的身份 / 速度 / 意图	多目标跟踪 / 4D occupancy / BEV 状态
车队经验层	天 - 月 - 年	车道级 / 路口级长期模式（堵塞 / 合流 / 异常）	REM / Lanelet2 / fleet learning

注意这两层和我们在第 1 章给的”对象 - 时间 - 证据 - 不确定性”五维结构是同构的——只是时间尺度和实体粒度不同。这正好印证了第 2 章设计原则 #2 的含义：多尺度从一开始就要支持，不是后期才堆起来。

3.3 XR / 空间计算：从静态锚点到变化追踪

XR 把空间记忆从工程问题变成了普通用户能直接感受到的产品体验问题。

第一步：让虚拟内容停在原地

最初级的需求是 空间锚点 (spatial anchor)：

把一个虚拟相框挂在客厅某面真实的墙上，下次戴上头显回到客厅，它必须精确出现在原来的位置
把一个空间小组件钉在书桌某个角，跨设备登录时它必须能跨 device 恢复
多人协作时，所有人看到的虚拟物体必须在同一个真实坐标上

这件事在 Apple visionOS 和 Meta Quest Scene Understanding API 上都已经是 SDK 级别的能力。它的本质是：系统对真实空间的关键几何特征做了持久化标识，并能在下次进入时重新对齐。

第二步：让系统理解空间在变化

但锚点只是开端。真正困难的是变化追踪：

用户回到同一房间——这还是同一个空间吗？还是用户在另一个相似房间里戴上了头显？
家具移动了——是物理世界变了，还是定位漂了？
一面墙被刷成了不同颜色——这是显著变化还是光照变化？
多人协作时，每个人对”现在房间长什么样”的理解必须实时同步

这一层的问题已经超出了”对齐特征”的范畴——它要求系统显式维护一份会随时间演化的空间状态，并且能在变化发生时主动推断变化的性质（物理变化 vs 定位漂移 vs 光照 / 视角差异）。

XR 的特殊性：用户能立刻感受到失败

和具身智能、自动驾驶不同，XR 的”空间记忆失败”对用户来说几乎是实时可见的：

虚拟相框漂走了 → 用户立刻看到
跨会话状态错乱 → 用户立刻意识到”上次的工作丢了”
多人协作不同步 → 协作直接破裂

这是为什么 XR 把空间记忆从后台架构问题推到了前台产品体验问题。如果你做 XR，你不能用”发个补丁修一下”打发用户——你必须把空间记忆做对，否则你的产品在第二天就会被用户卸载。

3.4 三股力量的”同向”汇合

把上面三节并列起来看，会发现它们在问题结构上完全同构：

应用线	状态对象	时间尺度	关键挑战
具身智能	物体 / 容器 / 房间 / 历史动作	秒 - 天	跨房间长程任务、容器推理、失败回顾
自动驾驶	车辆 / 行人 / 车道 / 路口经验	秒 - 月	遮挡推理、车队级长期模式
XR	锚点 / 房间布局 / 协作内容	秒 - 天 - 跨设备	跨会话重定位、变化追踪、多人同步

看起来不同的应用，在状态层都需要相同的能力：对象级状态维护 + 跨时间信念更新 + 不确定性显式表达 + 跨会话稳定性。这就是为什么”空间记忆”会成为系统级的瓶颈——它不是某个垂直领域的内部痛点，它是所有需要”进入物理世界”的 AI 系统都绕不开的同一层基础能力。

4. 为什么”更强的视觉模型”解不了这堵墙

理解了这堵墙的形状之后，剩下的问题是：为什么 2024-2026 年这一波 VLM / 视频生成模型的进展，没有解决这堵墙？

4.1 几条 benchmark 给出的明确信号

近两年的空间智能 benchmark 给出了相当一致的信号：

VSI-Bench [12]：在跨视角一致性、度量估计、空间组合推理上 SOTA VLM 仍显著低于人类
MMSI-Bench [20]：多图空间推理（要求跨视角维持对象身份）大模型表现远未达到人类水平
OST-Bench [28]：在线时空场景理解任务上，模型准确率随探索时间和记忆负载持续下降——这正是空间记忆缺位的直接表现
Theory of Space [31]：模型在”主动构建空间信念”任务上有 ~10% 的 active-passive gap，且存在 ~20% 的 belief inertia——这意味着模型不仅缺少状态，还会抗拒更新已有错误状态
EMemBench [41]：跨智能体轨迹的情景记忆问答中，空间推理是所有模型的持续瓶颈

这些 benchmark 的共同结论是：模型规模 / 上下文长度 / 视觉编码器质量的提升，并不会自动转化为跨时间空间状态维护能力。 它们解决的是”看清楚当前帧”的问题，没有解决”维护一份会更新的世界状态”的问题。

4.2 一个根本的结构性原因

为什么”更大的模型”解不了这堵墙？根源在问题类型不同：

识别问题可以被表达为：给定输入 $X$ ，输出标签 $Y$ 。模型规模和数据量上去了， $P(Y|X)$ 就会变好。
持续交互问题则要求维护一个随时间演化的内部状态 $Z$ ： $Z_{t+1} = f(Z_t, \text{obs}_{t+1})$ ，再基于 $Z_t$ 回答查询或选择行动。

后者本质上是一个有状态的动态系统。它需要的不是”更大的分类器”，而是：

一个显式状态结构——决定 $Z$ 长什么样（对象 / 关系 / 时间戳 / 置信度）
一个信念更新规则——决定 $f$ 怎么把新观测和旧状态融合（Bayesian update / 衰减 / 容器推理）
一个查询接口——决定 $Z$ 能回答哪些问题（last-seen / containment / change / state-audit）

这三件事都不是”训练一个大模型”能自动给你的——它们是系统设计的问题。模型可以是状态结构里某些子模块的实现（比如对象识别 / 关系推理），但整个状态层必须被显式架构出来。

4.3 端到端模型的两个具体局限

具体到当前 VLM 和视频生成模型，我们能看到两个明显的局限：

1. 隐式状态难以审计、难以更新

端到端模型把状态藏在 latent vector 里。这件事的代价是：

无法回答”为什么相信”：模型说钥匙在抽屉里——但它的 latent 里没有”我看了一次 + 容器关闭了 + 没有人开过抽屉”这条证据链
无法局部更新：用户说”钥匙我已经拿出来了”——你怎么把这条事实”插入”到 latent 里？只能 fine-tune 或重新整段 prompt
无法做 temporal-stratified calibration：模型不知道每条信念的”上次校准时间”，自然也无法对不同时间跨度的预测做不同强度的衰减

2. 长上下文窗口给的是 lookback，不是 state

哪怕你把过去 200K token 的所有交互都塞进 prompt，模型看到的依然是”事件流”，不是”当前世界状态”。它在每一次推理时重新从事件流推断当前状态——这个过程：

不稳定（同样的事件流，每次推理结果可能略有差异）
不可追溯（推断出”钥匙在抽屉里”这件事来自哪几条事件，模型自己说不清）
不可压缩（你没法把”过去 7 天的状态历史”压缩成几个 KB——它要么全在 prompt 里，要么全丢）

这就是为什么”再训一个更强的模型”无法把这堵墙推倒。这堵墙的本质是状态层的缺位——而状态层不是模型，是系统。

5. 把三股压力翻译成空间记忆的能力清单

把这一章铺开的三股压力汇总，可以提炼出空间记忆系统至少需要支持的能力清单。这张表会贯穿后续章节，作为评测和工程评审的对照。

能力	来自具身智能	来自自动驾驶	来自 XR
对象身份跨时间维持	找回任务	多目标跟踪	跨会话锚点
容器 / 隐藏状态推理	收纳任务	遮挡车辆轨迹	多人协作可见性
变化检测与摘要	状态核查	路况差分	房间变化追踪
时间索引到任意历史点	失败回顾	事故重建	协作历史回放
多尺度（局部 / 区域 / 全局）	房间 → 楼层	车道 → 路口 → 城市	桌面 → 房间 → 建筑
长期经验聚合	任务习惯	车队级模式	用户使用模式
跨设备 / 跨会话稳定性	多机器人协作	车队同步	多设备登录
显式置信度与衰减	”钥匙现在还在那里吗”	遮挡车辆位置概率	锚点漂移概率
证据链可回溯	”为什么相信钥匙在那里”	事故责任判定	协作冲突仲裁

注意每一行至少有两列——这意味着没有任何一项能力是某个领域独有的。它们是任何想进入物理世界的 AI 系统都会需要的同一组基础能力。这就是为什么把空间记忆作为一个通用系统层来设计是合理的——它不是某个垂直应用的”工程优化”，它是所有这些应用的公共基础设施。

6. 章节小结

本章核心结论：

感知、认知、记忆是三类问题类型不同的工作：感知处理当前输入，认知组织输入间的结构，记忆维护跨时间的信念。它们的失败模式不同——记忆的失败是沉默的过期，最难发现。
感知和认知 / 记忆之间存在 $10^8$ 倍的带宽差——智能不在于保存所有输入，而在于把高维观测筛成可用于行动的低维状态。任何想跳过这层的方案都在违反这个基本物理。
具身智能 / 自动驾驶 / XR 三股应用压力在 2024-2026 年同时撞上同一堵墙——它们看似不同，在状态层需要的能力高度同构。这是为什么空间记忆不是某个领域的内部问题，而是系统级的公共基础设施。
更强的视觉模型解不了这堵墙——因为这堵墙的本质是”状态层”的缺位，而状态层是系统设计问题，不是模型规模问题。隐式 latent 和长上下文窗口都不能替代显式状态结构、信念更新规则、查询接口。
三股压力翻译出一份能力清单——9 项核心能力（对象身份维持 / 容器推理 / 变化检测 / 时间索引 / 多尺度 / 长期经验 / 跨会话稳定 / 置信度 / 证据链）将作为后续章节的工程对照表。
下一章预告：我们将给出空间记忆的工程架构——感知 / 认知 / 记忆三层分工，简约性 / 自洽性两条工程纪律，以及容器推理 / 重定位这两个最具代表性的工程对照。

思考题

把第 5 节的 9 项能力清单挂到你正在做的系统上自查：每一项是”已经覆盖、有人在管”，还是”目前完全缺位、靠 prompt 临时打补丁”？至少标三项是你下一个 sprint 应该补的。
你的系统里有没有出现过”自信地引用过期状态”的失败？如果有，重新分析一次：这个错误是认知层应该被修的（关系搞反），还是记忆层应该被修的（状态过期）？区分清楚才能修对。
如果让你给”长上下文”和”显式空间记忆”做一次对比实验——同样的任务、同样的模型——你会怎么设计这个实验来证明（或证伪）“长上下文不能替代显式状态层”这个论点？
自动驾驶里的”车队级长期经验”和具身智能里的”机器人多日任务习惯”，本质都是长期模式记忆。在你的系统里，有没有可能也存在这样一层”地点 + 时段 + 模式”的长期记忆？它和你目前的”短期会话记忆 / 实时状态层”是怎么分工的？

下一章我们正式给出空间记忆的工程架构图：感知 / 认知 / 记忆三层分工 + 简约性 / 自洽性两条纪律 + 容器推理与重定位的工程对照。这是把前三章所有”为什么”翻译成”怎么做”的关键一章。

搜索