本站最新域名:m.ikbook8.com
老域名即将停用!
试图通过那三千个分子样本,直接去“理解”药物和蛋白质的结合能。
这就好比,把一个从来没学过英语的人关进房间,扔给他三千篇莎士比亚的十四行诗,然后让他直接去写一篇满分的文学评论!
这根本不是在学习,这是在瞎蒙!
i根本不懂化学分子的“语言”。
它不知道苯环是什么,不知道羟基代表着亲水,不知道甲基意味着疏水。
在他眼里,这些分子只是一堆毫无意义的三维坐标点。
它没有学会“词根”,就被迫去写“文章”。
“林柠檬?允宁哥?你怎么卡住了?信号不好吗?”
屏幕那头,沈知夏还在挥着手。
“夏天”
林允宁猛地回过神,眼神亮得吓人,“你真是个天才。”
“哈?”沈知夏一脸莫名其妙,“我背个单词就是天才了?你逗我呢吧?”
“我有急事,先挂了!”
林允宁甚至没来得及解释,直接切断了视频通话。
他抓起外套,冲出了公寓大门。
十分钟后,林允宁气喘吁吁地回到了戈登综合科学中心。
他没有去管那个失败的“ether_struch”项目,而是打开浏览器,输入了一个新的网址。
zc数据库。
这是加州大学旧金山分校维护的一个免费数据库,里面包含了超
<font colorred>-->>(本章未完,请点击下一页继续阅读)</font>
【请收藏,wjiwenxue.com 努力为你分享更多好看的小说】
</div>< "https:">提供的《学霸的模拟器系统》 第165章 哑巴与字典(求订阅求月票)(第2/2页)
过七亿种可以商业购买的小分子化合物结构。
对于之前的他来说,这是一个无用的仓库。
因为这些数据都没有“标签”??没人知道这些分子能不能治病,也没人知道它们能结合什么蛋白。
对于传统的监督学习算法来说,没有标签的数据,就是垃圾。
但现在,在林允宁眼里,这是一座金矿。
这是一本包含了七亿个词汇的“化学字典”。
他不需要知道这些分子能不能治病。
他只需要让i看着这些分子,去学习化学的“语法”。
哪怕它不知道这个分子有什么用,但只要它看多了,它就会知道:
苯环通常是平的,碳原子通常连着四个键,氮原子旁边经常会有氢键受体……………
这叫“自监督学习”。
在2006年,这还是一个只存在于顶级计算机科学家脑子里的模糊概念,连谷歌都还没开始大规模应用。
但林允宁在学习机器学习时,在一些文献中读到过。
他决定赌一把。
他打开终端,敲下了一行下载命令。
很快,硬盘指示灯开始疯狂闪烁,进度条像蜗牛一样缓慢爬行。
为了让i学会“识字”,他需要设计一个特殊的训练任务。
林允宁新建了一个代码文件,手指在键盘上飞快地敲击。
他设计了一个类似“完形填空”的游戏。
他编写了一个预处理程序,随机地把zc数据库里那些分子结构的一部分“遮住”。
比如,把一个苯环上的碳原子挖掉,或者把侧链上的氨基抹去。
然后,他要求i根据剩下的部分,去“猜”被遮住的是什么。
如果猜对了,说明i理解了分子的结构规律;如果猜错了,就通过反向传播算法调整参数,直到猜对为止。
这是一个不需要人工标注,不需要昂贵实验数据的过程。
只要有足够多的分子,i就可以在这个无人监管的“图书馆”里,通过无数次的自我博弈,从一个对化学一无所知的“文盲”,变成一个精通分子语言的“大师”。
等到它读完了这一亿本书,学会了所有的“词根”和“语法”。
再把它拉回到那三千个真实的药物数据面前。
那就是降维打击。
屏幕上,zc数据库的压缩包正在一个接一个地下载完成。
100b......1gb......
数亿条沉睡的分子数据,如同一条条看不见的河流,顺着网线涌入服务器的硬盘。
半个小时后,数据下载成功。
林允宁的训练程序也编写完成。
他敲下了最后一行代码,按下回车。
【pre-trgtsk:odelg】
【stt:itilizg...】
屏幕上的光标闪烁了一下,然后变成了一个旋转的进度条。
这是一场漫长的、寂静的蜕变。
在这个寒冷的冬夜,在没有人注意的角落里,一个刚刚面世的i,如同初生的婴儿。
它连话都不会说,却正抱着一本厚厚的字典,开始像那晚的沈知夏一样,一个字,一个字地啃读起来。
......
【请收藏,wjiwenxue.com 努力为你分享更多好看的小说】
</div>
\/阅|读|模|式|内|容|加|载|不|完|整|,退出可阅读完整内容|点|击|屏|幕|中|间可|退|出|阅-读|模|式|.
『加入书签,方便阅读』