第94章 显而易见的局限(3 / 4)

静。

“图像用卷积神经网络提取特征,文本用transformer,语音用梅尔频谱。这些特征向量维度不同,结构不同,度量不同。强行融合就像把苹果和橘子加在一起算总数,没有意义。”

他在白板上画了两个不相交的圆圈,分别标注“图像特征空间”和“文本特征空间”。

“我的思路是,引入群论作为统一框架。”

肖宿切换ppt,出现了一个复杂的数学结构图。

“所有数据模态,经过编码器映射到同一个群表示空间。在这个空间里,图像旋转、文本语法变换、语音时移,都可以看作群作用。”

台下,姚毅智院士眼睛一亮,迅速在笔记本上记下几个关键词。

“关键在于对称性约束。”

“每个数据模态都有其内在对称性。”

“图像有旋转、平移、缩放对称;文本有语法、语义对称。”

“自监督学习的目标,是在保持这些对称性的前提下,解耦出独立的特征因子。”

他调出了一段代码演示。

屏幕上,一个简单的神经网络正在训练,输入是未标注的图像和文本对,输出是解耦后的特征向量。

“训练过程中,系统会自动发现不同模态特征之间的对应关系。”

肖宿指着屏幕上的损失函数曲线。

“这是群等变约束损失,这是特征解耦损失。两者结合,就能实现跨模态的自然对齐。”

钱卫华院士身体前倾,盯着屏幕上的公式。

他是搞超算出身的,对算法效率极其敏感。

而肖宿展示的这个框架,计算复杂度明显低于传统的多模态融合方法。

“具体到实现细节……”

肖宿开始深入技术核心。

接下来的三十分钟,他像拆解精密的机械一样,将整个群论框架一层层剥开。

从李群在流形上的作用,到特征空间的纤维丛结构,再到自监督信号的构造方法……

讲堂里的气氛开始变得有些微妙。

前十几分钟,大部分学生还能勉强跟上,毕竟肖宿讲得深入浅出,而且还用了很多直观的比喻。

二十分钟后,大多数学生已经开始眼神涣散了。

那些“李代数”、“表示论”、“上同调”之类的术语,像天书一样在头顶飞舞。

“我……我听不懂了。”

一个数院大三的学生痛苦地捂住脸,“虽然我们已经在上抽象代数了,但肖神讲的东西,好像跟教科书上的不是一个次元啊……”

-->>(本章未完,请点击下一页继续阅读)