LeCun新证明:世界是高斯的 克雷西 发自 凹非寺量子位 | 公众号 QbitAILeCun的LeJEPA到底有没有构建出世界模型他本人最新发表的论文解答了这个问题。答案是肯定的但是有条件世界的底层变量需要服从高斯分布。论文给出了完整的数学证明覆盖了精确成立的条件和近似情况下误差的退化规律。同时LeCun他们还用机器人手臂控制实验验证了这一点——在目标导向的控制任务上用高斯采样训练出来的模型规划效果与已知真实状态的理想情况在统计上没有差异。这让LeCun押注多年的JEPA路线终于有了理论支撑。模型学没学到世界怎么判断判断一个机器学习模型的内部表示到底对不对得上真实世界的结构要看它能不能还原世界里的真实变量。一个模型在训练集上表现优秀并不代表它真正理解了世界可能只是把图像的纹理、光照、背景等无关信息混在一起恰好拼凑出了正确答案。一旦场景发生变化这样的表示就会失效。真正有用的表示应该对应世界的真实自由度比如物体的位置、速度、颜色这些独立的内在变量而不是它们被观测过程扭曲之后的混合产物。问题在于这些变量的观测本身就是一道屏障。我们看到的图像、传感器的读数都是世界真实状态经过复杂非线性变换之后的结果。这个变换可以非常复杂大量的结构信息在这个过程中被混淆、叠加。从这样的观测出发反推真实结构在数学上一般是无法保证的这正是表示学习长期面临的核心难题。对比学习、VICReg、BYOL等自监督学习的各种方法在这个问题上都绕开了正面回答。这些方法的共同特点是它们对模型输出的嵌入分布没有明确的约束只是通过各种技巧防止表示退化为常数。嵌入分布是什么形状、有什么性质这些方法并不关心。正因如此想要从理论上分析这些方法学到的表示是否还原了真实结构就缺乏足够的数学方法。LeJEPA的设计在这里走了一条不同的路。它通过一个叫SIGReg的正则项把模型输出的嵌入分布显式约束为各向同性高斯分布。这个约束让嵌入空间有了明确的几何结构也正是这个结构让严格的理论分析成为可能。选择高斯分布的一个前提是论文对世界的潜变量做了一个假设——它们服从高斯分布。这个假设的选择有两个理由。高斯分布是给定均值和方差条件下熵最大的分布这意味着它对潜变量的结构做出了最少的额外假设是一个尽可能保守的起点。与此同时任务相关的潜变量往往是大量微观变量聚合的结果根据中心极限定理这类聚合变量天然趋向高斯分布。高斯分布有效且唯一的答案在LeCun的论文中判断LeJEPA的表示是否还原了世界的真实结构的标准叫做线性可识别性。意思是说如果学到的表示和真实潜变量之间存在一个线性对应关系就认为模型还原了世界的真实结构。但这个标准的门槛并不低它要求表示空间里的每一个维度都对应真实世界里某一个独立的变量。用数学语言来表达就是存在一个矩阵Q使得真实潜变量经过Q的线性变换之后恰好等于模型输出的表示。用于判断线性可识别性的工具叫做线性探针即在冻结的表示上训练一个线性分类器或回归器用来衡量表示里包含了多少关于目标变量的信息。线性探针本身只能做线性变换这意味着它能提取到什么完全取决于表示里的信息——如果表示真的线性对应了真实变量线性探针就能准确提取反之亦然。论文中作者正是用线性探针来衡量LeJEPA的表示是否还原了真实潜变量的。实验的设置是这样的先在已知的低维高斯潜变量上施加非线性混合函数这些混合函数包括螺旋形变换、正弦剪切、抛物线剪切、RealNVP耦合层等多种形式目的是把潜变量变换成观测数据接着再用LeJEPA在这些观测数据上训练编码器最后在编码器输出的表示和原始潜变量之间拟合一个线性回归用R²衡量两者的线性对应程度。R²越接近1说明表示和真实潜变量之间的线性关系越强即线性可识别性越好。实验还把潜变量的维度从2一路扩展到1024远超DINOv2等模型的嵌入维度以验证结论是否随规模成立。结果显示在所有测试的混合函数和维度下SIGReg和VICReg的R²都保持在0.999以上线性可识别性在高斯潜变量的条件下稳定成立。从理论角度看对于高斯分布描述变量如何在时间上演化的转移算子有一组特殊的特征函数叫做Hermite多项式它们是高斯分布下函数空间的自然正交基类似于周期函数里的傅里叶级数。这组多项式的关键性质是一个函数里非线性成分的次数越高它在正样本对之间的相关性就越低。LeJEPA的对齐损失要最大化正样本对之间的相关性因此任何非线性扭曲都会被严格惩罚。再结合SIGReg对嵌入分布的约束这个线性映射必然是一个正交变换即真实潜变量的一个旋转。论文进一步证明了这个条件的唯一性。Sturm-Liouville理论是经典数学物理里分析微分算子特征函数的框架它描述了在什么条件下一个算子的特征函数具有特定的形状。论文借用这个框架证明要让转移算子的第一个特征函数恰好是仿射函数即线性函数加常数潜变量的分布必须满足一个非常严格的条件——它的对数密度的导数必须是线性的而满足这个条件的分布恰好只有高斯分布。这意味着高斯分布在这个问题里的地位是唯一的换成Laplace分布、均匀分布或其他任何非高斯分布线性可识别性的保证都无法成立。论文也用实验印证了这一点在广义正态分布族里扫描形状参数线性恢复的R²在形状参数等于2即高斯时出现尖锐的峰值偏离高斯之后迅速下降。在表示空间规划就是在真实世界规划线性可识别性一旦成立意味着什么这意味着在学到的表示空间里做规划得到的结果和在真实世界里求解最优控制完全等价。如果表示和真实潜变量之间只差一个旋转那么表示空间里的直线轨迹解码回真实空间之后仍然是一条直线而直线轨迹恰好是很多控制问题里的最优解。因此只要代价函数对旋转不敏感在表示空间里规划出来的最优策略就等同于在真实世界里规划出来的最优策略。论文用一个机器人手臂控制任务来验证这一点。实验的场景是DMC Reacher一个有两个关节的机械臂目标是从起始姿态运动到目标姿态。实验分两组第一组用各向同性随机采样OU过程生成训练数据潜变量的分布满足高斯假设第二组直接用强化学习策略跑出来的真实轨迹作为训练数据潜变量的分布因为策略的目标导向性而集中在状态空间的某个低熵区域不再满足高斯假设。结果显示第一组训练出来的编码器在表示空间里做直线插值规划得到的关节轨迹与已知真实状态的理想情况在统计上没有差异第二组训练出来的编码器同样的规划方法却产生了明显的偏差控制代价显著上升。同一套物理系统用随机探索的方式采样就能满足理论条件用目标导向的策略采样就会破坏条件。两者的区别正是在于数据的分布。这意味着在自监督预训练阶段数据采样策略本身就是理论保证的一部分。论文地址https://arxiv.org/abs/2605.26379一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—专属AI产品从业者的实名社群只聊AI产品最落地的真问题扫码添加小助手发送「姓名公司职位」申请入群进群后你将直接获得 最新最专业的AI产品信息及分析 不定期发放的热门产品内测码 内部专属内容与专业讨论 点亮星标 科技前沿进展每日见