34(2 / 4)
波炉热好了饭似的,曲悠悠也眨了眨眼,被动触发尬笑技能:“害,你这么说我就懂了嘛哈哈哈…”
其实也不懂。
"所以你是在做数学题。"
"嗯。"
曲悠悠看着薛意严肃的侧脸,忽然有点想笑。觉着薛意这人挺好玩的。皱着眉头飙到150码,不是因为心情不好,是因为在脑子里解微分方程。说起话来也好像AI啊,还是不说人话的那种。
有点可Ai。
嘿嘿。
中午在一个公路旁小镇停下来吃饭。
下车走进路边一家美式餐馆,薛意和陶予之刚坐下就开始聊。
内容未完,下一页继续阅读 陶予之从包里掏出平板,翻出一篇论文递给薛意:"MIT那组的新预印本你看了吗?把self-attention写成球面上的iingparticlesystem,证了一个tokenclustering的收敛定理。证明本身挺漂亮的,Wasserstein梯度流那段构造得很g净。"
薛意接过来,眼睛扫了一眼公式。
"证明是挺漂亮的,但不能用。"她拿过一张餐巾纸,画了个球面示意图:"他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blowup。你拿这个收敛率去calibrate真实的attentionmap,差两个数量级。"
陶予之笑了一下。她太熟悉薛意的思路了。纯数学家看一篇论文先看证明结构美不美,薛意看一篇论文先看结论能不能拿来赚钱。
"那你打算怎么修?"
"不修,换个框架。"薛意在餐巾纸上飞快地画了起来:"我在想Ricciflow。Clustering本质上就是曲率集中,Perelman处理奇点的那套surgery改一改,应该能给一个更tight的bound。"
两人聊得旁若无人…
曲悠悠懵懵地看着两个神仙似的人叽里咕噜说了一堆什么都听不懂的话,还有来有回的,有点幽怨地开始怀疑自己的智商。
肩膀被轻轻拍了两下。
“别管她们了,”徐医生浅笑着,g了g她的臂弯,“咱们去点些东西吃。
内容未完,下一页继续阅读 曲悠悠僵僵地回过神来,“哦…好叻。”
跟着徐医生来到点单柜台,曲悠悠看了眼菜单,又茫然地回头看着不远处窗边座位上两人之间的餐巾纸上越来越密的符号和箭头。
徐医生靠
-->>(本章未完,请点击下一页继续阅读)