本站最新域名:m.ikbook8.com
老域名即将停用!
手从桌上的纸巾盒里抽出一张餐巾纸,掏出随身带的圆珠笔,在纸上画了一个示意图:
“李教授,想象一下传话游戏。如果你想把一句话传给第100个人,中间每过一个人,信息就会因为‘非线性”的理解而扭曲一点。到了最后,话全变了。”
他在纸上画了一个方框,代表卷积层。
“现在的做法是强迫网络去学习从x到y的完整映射f。这很难。”
林允宁在方框旁边,画了一条弯曲的弧线,直接把输入x连到了输出端。
在那条弧线上,他重重地画了一个加号:+。
hf+x
“我们给它修一条直通车''。”
林允宁指着那个简单的公式,“这就是‘残差块’。
“我们不再让网络去学习完整的输出h,而是让它只学习“变化量’????也就是残差f-x。
“如果这一层不需要做什么改变,网络只需要把f置为0,那么输出就自动等于输入x。
“这样一来,梯度就可以顺着这条高速公路,毫无损耗地传回前面的层。别说50层,就是100层、1000层,也能训练。”
李飞飞盯着那张餐巾纸。
那个结构简单得像是一个大一学生的作业。
但正是这种极致的简洁,让她感到一阵头皮发麻。
困扰了i界几十年的深度瓶颈,竟然被一条简单的“跳线”给破解了?
“这......这太天才了!”
李飞飞猛地抬起头,眼神里全是震撼,"identityppg......恒等映射!就这么简单?为什么没人想到?”
“因为大家都在想怎么把网络变得更复杂,却忘了有时候什么都不做’也是一种智慧。”
林允宁笑了笑。
“但是......”
李飞飞忽然想到了什么,眼神中的兴奋稍稍褪去,“算力......普林斯顿的经费有限,训练这种深层网络需要的gpu算力是天文数字。我现在连i的存储服务器费用都快付不起了。”
2007年,nvidi刚刚发布第一代tesc870计算卡,cud生态还是一片荒芜。
训练一个几十层的网络,简直是在往无底洞里面扔钱。
“算力不是问题。”
林允宁等的就是李飞飞这句话。
他靠在椅背上,端起咖啡抿了一口,露出了商人的微笑。
他语气轻松,仿佛他背后站着整个谷歌的数据中心,“以太动力虽然是家小公司,但在高性能计算上的投入从不吝啬。
“李教授,我们做个交易吧。
“以太动力可以为你提供基于‘残差网络’的全套算法支持,并且在不远的未来,在我们的服务器上帮你训练第一版i分类模型。”
李飞飞震惊地看着这个年轻人。
她知道以太动力刚赚了辉瑞的钱,但没想到他们竟然富到可以烧钱训练大模型。
“条件呢?”她问道。
李飞飞是聪明人,知道天下没有免费的午餐。
“我要i完整数据集的永久商业使用权。”
<font colorred>-->>(本章未完,请点击下一页继续阅读)</font>
【请收藏,wjiwenxue.com 努力为你分享更多好看的小说】
</div>< "https:">提供的《学霸的模拟器系统》 第234章 恒等映射(求订阅求月票)(第3/3页)
林允宁图穷匕见,声音不大,却透着不容置疑的坚决,“以及未来所有版本更新和衍生数据的优先共享权。”<
\/阅|读|模|式|内|容|加|载|不|完|整|,退出可阅读完整内容|点|击|屏|幕|中|间可|退|出|阅-读|模|式|.
『加入书签,方便阅读』
-->> 本章未完,点击下一页继续阅读(第4页/共5页)