你随便打开手机上的大模型,问它一个问题:“把一只玻璃杯推到桌子边缘,会发生什么?”
它会毫不犹豫地告诉你:杯子会掉下去,然后摔碎。
听起来很聪明。但真相是,它根本不知道杯子为什么往下掉。它只是在训练数据里见过太多次“杯子”“掉落”“破碎”这几个词扎堆出现,然后根据概率统计,给出了最像正确答案的那句话。
文本世界里,这种“聪明的猜测”游刃有余。可一旦我们试图把AI塞进一台需要端盘子、叠衣服、走楼梯的机器人,麻烦就来了。
过去几年,CNN和Transformer称得上是人工智能领域最耀眼的两个名字。一个统治了计算机视觉,一个把语言模型推到了前所未有的高度。但当聚光灯从屏幕转向现实世界,当AI必须离开数字沙盘、踏入物理环境与人真实交互时,一个越来越尖锐的问题浮出水面:这两种我们无比依赖的架构,是不是从根本上就不适合干物理AI这档子事?
只会认皮相的眼睛
先说CNN。
这套机制的设计初衷是模拟人的视觉系统,用一堆可学习的滤波器去扫描图像,提取边缘、纹理、形状,然后层层抽象直到完成识别。在ImageNet上它打败了人类,在很多视觉任务上几乎成了默认方案。
但问题恰恰出在它的设计哲学上——CNN本质上是在学习“像素与标签之间的统计关联”,而不是在理解“物体由什么构成”。
来看一个简单的例子。一个小孩看到一辆被几棵盆栽挡住一半的汽车,即便从没见过这种遮挡方式,也能毫不费力判断那是一辆车。因为他的脑子有一个“车由轮子、车身、车窗组成”的认知框架,某个部件被挡住,他用其他线索照样补全。可标准的CNN没这个本事。它的判断基于整体像素模式,一旦遮挡方式稍微变化——比如挡的不是车身而是车灯——那些精心训练的卷积核就乱了阵脚。
研究表明,传统黑箱式深度CNN在处理部分遮挡时表现极不稳定,直到研究者引入“物体部件组合”的结构化方法,才显著提升了对遮挡物体的识别鲁棒性。换句话说,你得额外给它加料,它才勉强学会了人类天生就懂的事情。
把这个问题放到物理AI的场景里,更要命。机器人走在路上,眼前随时出现堆叠的箱子、交错的管道、半开的门——全是动态的、部分遮挡的真实场景。如果它只能依赖CNN输出的像素特征做决策,而缺乏对物体构成的内在理解,稍微转个身、光线变一下,原本“认识”的东西就认不出来了。
还有更头疼的:CNN对纹理有一种近乎偏执的依赖。它更倾向于根据表面纹理分类,而不是根据物体形状。就像一个人判断猫不看耳朵、瞳孔和胡须,只看毛色——毛色像猫的动物全算猫,换个毛色就翻脸不认。这种偏执,在变幻莫测的物理世界里,是致命的。
只背答案的考生
如果说CNN的盲区在于“看见了却不懂”,那Transformer的问题更深刻——它压根不是为了理解因果而设计的。
Transformer的核心武器是自注意力机制,能一次性捕捉序列中任意两个位置之间的依赖关系。这在语言模型里简直是神器——一个词能和几千字外的另一个词建立关联,对理解语义、生成连贯文本至关重要。但请注意,“注意力”算出来的只是统计相关性。训练数据里,“打雷”和“下雨”常常一起出现,所以它们之间的注意力权重很高。但模型并不知道,是打雷导致了下雨,还是两者背后另有原因。
说穿了,Transformer是个顶级的“开普勒”——能描述现象、总结规律,却永远成不了“牛顿”。它背下了答案,却没学懂公式。
物理AI不需要这种死记硬背的好学生。一台在工厂里搬运零件的机器人,必须理解力学的基本规则:推一个箱子,箱子的移动速度和方向取决于推力大小、摩擦系数、箱子质量。如果模型没有内化这些物理因果,只是根据视觉输入与动作输出的统计关联做决策,那一旦地板从干燥变湿滑,或者零件材质从金属换成塑料——整套策略就全盘崩塌。
有研究者一针见血地指出,当前的具身大模型本质上是“记忆轨迹”而非“理解逻辑”。图灵奖得主姚期智也直言:如今具身智能最大的技术瓶颈之一,就是它们只会不断模仿人的行为,却缺乏可解释的世界模型和物理因果推理过程。从“模仿”走向“推理”,这道门槛,Transformer的底层逻辑——预测下一个token——根本跨不过去。
数据的荒漠,能耗的黑洞
就算暂时把架构层面的根本局限放在一边,光看工程现实,CNN和Transformer在物理AI上也已经步履蹒跚了。
数据就是第一个绕不过去的坎。大语言模型之所以能成,是因为互联网本身就是一座取之不尽的数据矿山——维基百科、新闻、论坛、论文、代码库,全是现成的、经过标注的文本数据。但物理AI呢?机器人需要的数据来自真实世界中的每一次交互:每一次抓取、每一步行走、每一下推拉。每一帧数据背后都是真实的物理动作和对应的多模态传感反馈。
这样的数据极难大规模采集。一台遥操作采集设备,单条高质量数据的成本折合高达3到5元,而全行业汇聚的高质量具身数据仅约50万小时,不足大语言模型训练数据的数万分之一。一个具备通用泛化能力的具身模型,至少需要千万小时级别的数据支撑。缺口摆在这里,谁都看得到问题的严重性。
数据问题即使解决了,算力成本也不容乐观。Transformer的注意力机制有一个广为人知的软肋:计算复杂度与序列长度的平方成正比。在语言模型里,这O(n²)的复杂度已经够让人头疼了;但在物理AI场景里,传感器流是连续、高频、多模态的——视觉、触觉、惯性测量单元、关节角度——数据源源不断涌入。如果在机器人本体上跑一个参数量几十亿的Transformer来处理这么多维度的时序数据,功耗和延迟都会飙到不可接受的水平。
有研究指出,全局注意力机制下每个token都要和所有其他token计算,而CNN里最基本的相邻关系,在Transformer里却需要大量冗余运算。用一句话说:你花了大价钱买了张贵得离谱的入场券,换来的是拖泥带水的决策速度。
需要新地图
说CNN和Transformer不适用于物理AI,不是说它们在物理AI中完全没有用武之地。CNN可以拿来做感知端的多模态特征提取,Transformer可以用来做高层任务规划和语义理解。问题是,不能把一个本来设计来处理离散序列或静态图像的架构,硬塞给它“理解物理世界因果律”这种完全不匹配的期望。
物理AI需要的是能内嵌物理规律的模型——它应该天然懂得连续性、守恒律和因果链,而不是靠海量数据硬生生去拟合出这些规律的表面特征。它需要高效的时序推理能力,能在有限计算资源下完成实时闭环控制。它需要从“模仿人的动作”升级为“理解物理的逻辑”,先想清楚再动手。
剑桥大学一位控制理论学者打过一个让人深思的比方:用Transformer去学习物理规律,就像用钢琴弹一首小提琴奏鸣曲——声音可能接近,但弓弦之间那种复杂的物理耦合,是你永远弹不出来的。
眼下,物理AI的赛道才刚起跑。真正需要的东西,不是把CNN和Transformer往机器人里硬塞,而是敢于质疑主流范式的勇气。毕竟,物理世界不会因为你的模型参数够多、注意力头够密,就放弃它对因果律的坚持。
在一条用概率统计撑起来的数字长廊里,你永远找不到牛顿的苹果。
(文章来源:公众号退一步看看)