第94章显而易见的局限（3 / 4）

静。

“图像用卷积神经网络提取特征，文本用transformer，语音用梅尔频谱。这些特征向量维度不同，结构不同，度量不同。强行融合就像把苹果和橘子加在一起算总数，没有意义。”

他在白板上画了两个不相交的圆圈，分别标注“图像特征空间”和“文本特征空间”。

“我的思路是，引入群论作为统一框架。”

肖宿切换ppt，出现了一个复杂的数学结构图。

“所有数据模态，经过编码器映射到同一个群表示空间。在这个空间里，图像旋转、文本语法变换、语音时移，都可以看作群作用。”

台下，姚毅智院士眼睛一亮，迅速在笔记本上记下几个关键词。

“关键在于对称性约束。”

“每个数据模态都有其内在对称性。”

“图像有旋转、平移、缩放对称；文本有语法、语义对称。”

“自监督学习的目标，是在保持这些对称性的前提下，解耦出独立的特征因子。”

他调出了一段代码演示。

屏幕上，一个简单的神经网络正在训练，输入是未标注的图像和文本对，输出是解耦后的特征向量。

“训练过程中，系统会自动发现不同模态特征之间的对应关系。”

肖宿指着屏幕上的损失函数曲线。

“这是群等变约束损失，这是特征解耦损失。两者结合，就能实现跨模态的自然对齐。”

钱卫华院士身体前倾，盯着屏幕上的公式。

他是搞超算出身的，对算法效率极其敏感。

而肖宿展示的这个框架，计算复杂度明显低于传统的多模态融合方法。

“具体到实现细节……”

肖宿开始深入技术核心。

接下来的三十分钟，他像拆解精密的机械一样，将整个群论框架一层层剥开。

从李群在流形上的作用，到特征空间的纤维丛结构，再到自监督信号的构造方法……

讲堂里的气氛开始变得有些微妙。

前十几分钟，大部分学生还能勉强跟上，毕竟肖宿讲得深入浅出，而且还用了很多直观的比喻。

二十分钟后，大多数学生已经开始眼神涣散了。

那些“李代数”、“表示论”、“上同调”之类的术语，像天书一样在头顶飞舞。

“我……我听不懂了。”

一个数院大三的学生痛苦地捂住脸，“虽然我们已经在上抽象代数了，但肖神讲的东西，好像跟教科书上的不是一个次元啊……”

第94章 显而易见的局限（3 / 4）