爱看书吧

爱看书吧 > 其他小说 > 学霸的模拟器系统 > 正文 第200章 O(N)的魔法与傲慢的谷歌(求订阅求月票)

正文 第200章 O(N)的魔法与傲慢的谷歌(求订阅求月票)(第1页/共2页)

本站最新域名:m.ikbook8.com
老域名即将停用!

    < "https:">提供的《学霸的模拟器系统》 第200章 O(N)的魔法与傲慢的谷歌(求订阅求月票)(第1/2页)

    芝加哥奥黑尔国际机场,c18登机口。

    候机大厅的落地窗外,巨大的波音747如同展翅的大鹏,正在缓缓滑向跑道。

    程新竹抱着膝盖坐在椅子上,眼睛瞪得像铜铃,哪怕她平时是个只对生物大分子感兴趣的医学生,也知道geoffreyhton这个名字在人工智能领域的份量。

    “神经网络教父,深度学习的执剑人....……”

    程新竹像是在念某种咒语,转头看向依然一脸平静地在刷手机新闻的林允宁,“允宁,这就好比你是打篮球的,然后乔丹突然给你发私信说‘嘿,小伙子,晚上来我家后院单挑一把。你居然就只回了个‘收到?”

    “不然呢?还要给他写封感谢信?”

    林允宁收起手机,顺手把喝完的咖啡杯扔进垃圾桶,“辛顿教授确实是泰斗,但他发这封邮件,说明他也嗅到了危机感。ether的算法在某种程度上挑战了他在多伦多大学建立的体系。这不仅仅是学术交流,更像是一场………………

    踢馆赛的邀请函。”

    “踢馆?”

    程新竹兴奋地搓了搓手,“那我岂不是要去见证历史了?”

    “只要你别在会上睡着就行。”

    这时,一阵高跟鞋敲击大理石地面的清脆声音传来。

    方雪若手里拿着三张新的登机牌,风风火火地走了过来。

    她把那三张印着金色边框的票据分别拍在林允宁和程新竹手里。

    “收拾东西,去休息室。”

    雪若言简意赅,“我把咱们的票升到了头等舱。”

    “啊?雪若姐,你前两天不是还说咱们是初创公司,能省则省嘛?”

    程新竹下意识地想替公司省钱。

    “该省得省,该花的也得花。”

    雪若打断了她,理了理风衣的领口,“这次去ic、微软和斯坦福的精英。如果你们下了飞机一脸狼狈,那气场上就先输了一半。

    “记住,我们现在不是只有几台破电脑的创业公司了。我们是刚刚从辉瑞手里赚了八百万美金,准备去硅谷重新定义游戏规则的独角兽幼崽。要有身为精英的自觉。”

    林允宁看着手里的头等舱机票,笑了笑,拎起背包:

    “听老板的。”

    波音747钻入云层,平稳地航行在三万英尺的高空。

    头等舱宽大的座椅确实让人放松。

    程新竹已经戴着眼罩睡着了,雪若正在翻看手中的财报。

    那是全球顶级的散热材料供应商。

    林允宁打开了笔记本电脑。

    他没有看电影,也没有睡觉,而是调出了一篇google研究院上周刚发表的论文:

    《核方法在大规模数据集上的算力瓶颈与低秩近似》。

    这篇论文像是一份判决书,直指当前所有注意力机制算法的死穴。

    即使是他提出的“全注意力机制”,虽然在药物分子这种短序列上表现完美,但只要序列长度一拉长,计算量就会呈指数级爆炸。

    核心问题在于那个该死的softtentionsoftx.v

    必须要先算q和k的转置乘积。这会生成一个nxn的巨大矩阵。

    如果n是1000,矩阵就是100万个元素,显卡还能扛得住。

    但如果是基因测序的长序列,可能是10万,那就是100亿个元素。现有的任何内存都会瞬间被撑爆。

    这就是“算力的囚笼”。

    在这个囚笼里,他的算法处理不了长文本,也处理不了高分辨率图像,注定只能是个玩具。

    google正是看准了这一点,才敢断言这个方向没有前途。

    林允宁闭上眼,靠在椅背上。

    【模拟科研模式启动。】

    【注入模拟时长:200小时。】

    机舱里的嗡鸣声瞬间消失。

    林允宁的意识沉入了一片纯白的数学空间。

    在他的眼前,出现了一个巨大的矩阵。那是标准的softionsoftxv

    那个中间产生的矩阵,大得像是一堵墙,横亘在算力的通道上。

    它是一个nxn的庞然大物。

    【第20小时:你尝试用稀疏矩阵来近似。失败。稀疏化会丢失长距离的语义关联,得不偿失。】

    【第60小时:你尝试用低分解。效果一般,精度损失太大。】

    【第120小时:你回到了矩阵乘法的最基本性质??结合律。】

    c

    这谁都知道。

    但在注意力公式里,那个非线性的softx是为了归一化和非线性映射,那为什么不用一个核函数fetureppp

    一旦把非线性操作移到乘法之前,结合律就生效了!

    原本的计算顺序是:

    v

    这是先算nxn的大矩阵,再乘v

    现在的计算顺序可以是:

    q

    kt是,v是。

    它们乘起来,只是一个dxd的小矩阵!

    d通常只有64或128,远小于序列长度n。

    【第180小时:推导完成。】

    原本随n增长而爆炸的计算墙,瞬间坍塌。

    新的复杂度:o。

    从平方级降维到线性级。

    林允宁猛地睁开眼。

    他迅速从包里掏出草稿纸,在那张印着美联航logo的餐巾纸背面,写下了一行核心公式:

    ler_ttntv))/Σqt)

    困扰了整个i学界的大序列计算难题,被一个简单的高中数学知识??结合律,给破解了。

    当然,前提是找到那个合适的映射函数p。

    那是全球最大的散热材料供应商。

\/阅|读|模|式|内|容|加|载|不|完|整|,退出可阅读完整内容|点|击|屏|幕|中|间可|退|出|阅-读|模|式|.
『加入书签,方便阅读』
-->> 本章未完,点击下一页继续阅读(第1页/共2页)