物理AI在等待属于它的架构

你随便打开手机上的大模型，问它一个问题：“把一只玻璃杯推到桌子边缘，会发生什么？”

它会毫不犹豫地告诉你：杯子会掉下去，然后摔碎。

听起来很聪明。但真相是，它根本不知道杯子为什么往下掉。它只是在训练数据里见过太多次“杯子”“掉落”“破碎”这几个词扎堆出现，然后根据概率统计，给出了最像正确答案的那句话。

文本世界里，这种“聪明的猜测”游刃有余。可一旦我们试图把AI塞进一台需要端盘子、叠衣服、走楼梯的机器人，麻烦就来了。

过去几年，CNN和Transformer称得上是人工智能领域最耀眼的两个名字。一个统治了计算机视觉，一个把语言模型推到了前所未有的高度。但当聚光灯从屏幕转向现实世界，当AI必须离开数字沙盘、踏入物理环境与人真实交互时，一个越来越尖锐的问题浮出水面：这两种我们无比依赖的架构，是不是从根本上就不适合干物理AI这档子事？

只会认皮相的眼睛

先说CNN。

这套机制的设计初衷是模拟人的视觉系统，用一堆可学习的滤波器去扫描图像，提取边缘、纹理、形状，然后层层抽象直到完成识别。在ImageNet上它打败了人类，在很多视觉任务上几乎成了默认方案。

但问题恰恰出在它的设计哲学上——CNN本质上是在学习“像素与标签之间的统计关联”，而不是在理解“物体由什么构成”。

来看一个简单的例子。一个小孩看到一辆被几棵盆栽挡住一半的汽车，即便从没见过这种遮挡方式，也能毫不费力判断那是一辆车。因为他的脑子有一个“车由轮子、车身、车窗组成”的认知框架，某个部件被挡住，他用其他线索照样补全。可标准的CNN没这个本事。它的判断基于整体像素模式，一旦遮挡方式稍微变化——比如挡的不是车身而是车灯——那些精心训练的卷积核就乱了阵脚。

研究表明，传统黑箱式深度CNN在处理部分遮挡时表现极不稳定，直到研究者引入“物体部件组合”的结构化方法，才显著提升了对遮挡物体的识别鲁棒性。换句话说，你得额外给它加料，它才勉强学会了人类天生就懂的事情。

把这个问题放到物理AI的场景里，更要命。机器人走在路上，眼前随时出现堆叠的箱子、交错的管道、半开的门——全是动态的、部分遮挡的真实场景。如果它只能依赖CNN输出的像素特征做决策，而缺乏对物体构成的内在理解，稍微转个身、光线变一下，原本“认识”的东西就认不出来了。

还有更头疼的：CNN对纹理有一种近乎偏执的依赖。它更倾向于根据表面纹理分类，而不是根据物体形状。就像一个人判断猫不看耳朵、瞳孔和胡须，只看毛色——毛色像猫的动物全算猫，换个毛色就翻脸不认。这种偏执，在变幻莫测的物理世界里，是致命的。

只背答案的考生

如果说CNN的盲区在于“看见了却不懂”，那Transformer的问题更深刻——它压根不是为了理解因果而设计的。

Transformer的核心武器是自注意力机制，能一次性捕捉序列中任意两个位置之间的依赖关系。这在语言模型里简直是神器——一个词能和几千字外的另一个词建立关联，对理解语义、生成连贯文本至关重要。但请注意，“注意力”算出来的只是统计相关性。训练数据里，“打雷”和“下雨”常常一起出现，所以它们之间的注意力权重很高。但模型并不知道，是打雷导致了下雨，还是两者背后另有原因。

说穿了，Transformer是个顶级的“开普勒”——能描述现象、总结规律，却永远成不了“牛顿”。它背下了答案，却没学懂公式。

物理AI不需要这种死记硬背的好学生。一台在工厂里搬运零件的机器人，必须理解力学的基本规则：推一个箱子，箱子的移动速度和方向取决于推力大小、摩擦系数、箱子质量。如果模型没有内化这些物理因果，只是根据视觉输入与动作输出的统计关联做决策，那一旦地板从干燥变湿滑，或者零件材质从金属换成塑料——整套策略就全盘崩塌。

有研究者一针见血地指出，当前的具身大模型本质上是“记忆轨迹”而非“理解逻辑”。图灵奖得主姚期智也直言：如今具身智能最大的技术瓶颈之一，就是它们只会不断模仿人的行为，却缺乏可解释的世界模型和物理因果推理过程。从“模仿”走向“推理”，这道门槛，Transformer的底层逻辑——预测下一个token——根本跨不过去。

数据的荒漠，能耗的黑洞

就算暂时把架构层面的根本局限放在一边，光看工程现实，CNN和Transformer在物理AI上也已经步履蹒跚了。

数据就是第一个绕不过去的坎。大语言模型之所以能成，是因为互联网本身就是一座取之不尽的数据矿山——维基百科、新闻、论坛、论文、代码库，全是现成的、经过标注的文本数据。但物理AI呢？机器人需要的数据来自真实世界中的每一次交互：每一次抓取、每一步行走、每一下推拉。每一帧数据背后都是真实的物理动作和对应的多模态传感反馈。

这样的数据极难大规模采集。一台遥操作采集设备，单条高质量数据的成本折合高达3到5元，而全行业汇聚的高质量具身数据仅约50万小时，不足大语言模型训练数据的数万分之一。一个具备通用泛化能力的具身模型，至少需要千万小时级别的数据支撑。缺口摆在这里，谁都看得到问题的严重性。

数据问题即使解决了，算力成本也不容乐观。Transformer的注意力机制有一个广为人知的软肋：计算复杂度与序列长度的平方成正比。在语言模型里，这O(n²)的复杂度已经够让人头疼了；但在物理AI场景里，传感器流是连续、高频、多模态的——视觉、触觉、惯性测量单元、关节角度——数据源源不断涌入。如果在机器人本体上跑一个参数量几十亿的Transformer来处理这么多维度的时序数据，功耗和延迟都会飙到不可接受的水平。

有研究指出，全局注意力机制下每个token都要和所有其他token计算，而CNN里最基本的相邻关系，在Transformer里却需要大量冗余运算。用一句话说：你花了大价钱买了张贵得离谱的入场券，换来的是拖泥带水的决策速度。

需要新地图

说CNN和Transformer不适用于物理AI，不是说它们在物理AI中完全没有用武之地。CNN可以拿来做感知端的多模态特征提取，Transformer可以用来做高层任务规划和语义理解。问题是，不能把一个本来设计来处理离散序列或静态图像的架构，硬塞给它“理解物理世界因果律”这种完全不匹配的期望。

物理AI需要的是能内嵌物理规律的模型——它应该天然懂得连续性、守恒律和因果链，而不是靠海量数据硬生生去拟合出这些规律的表面特征。它需要高效的时序推理能力，能在有限计算资源下完成实时闭环控制。它需要从“模仿人的动作”升级为“理解物理的逻辑”，先想清楚再动手。

剑桥大学一位控制理论学者打过一个让人深思的比方：用Transformer去学习物理规律，就像用钢琴弹一首小提琴奏鸣曲——声音可能接近，但弓弦之间那种复杂的物理耦合，是你永远弹不出来的。

眼下，物理AI的赛道才刚起跑。真正需要的东西，不是把CNN和Transformer往机器人里硬塞，而是敢于质疑主流范式的勇气。毕竟，物理世界不会因为你的模型参数够多、注意力头够密，就放弃它对因果律的坚持。

在一条用概率统计撑起来的数字长廊里，你永远找不到牛顿的苹果。

(文章来源：公众号退一步看看)

物理AI在等待属于它的架构

请登录