第220章 巨大的漩涡?

    跟林灰的交流,贺天昌询问了一些关于生成式文本摘要算法的问题。

    当然贺天昌好奇的不是具体技术本身。

    他好奇的是林灰的科研过程。

    像林灰这样一个未经过学术方面系统学习的人是怎样一个人搞定全球领先算法的呢?

    贺天昌问了林灰一些常规的问题。

    比如说林灰是怎么搞定语言模型训练的语料库的?

    事实上这并不是林灰第一次听到这个问题了。

    先前尹芙·卡莉就在信中提问过林灰这个问题。

    不过就算林灰以前没听人提过这个问题也不用担心被问住。

    涉及到生成式文本摘要算法专利,最容易让这个时空外界不解的就是语料库的问题了。

    讲真,最近一直用看书追更,换源切换,朗读音色多,安卓苹果均可。】

    不提前想好牵扯到训练语言模型所用到的语料库问题该怎么解释就贸然拿出文本摘要方面的新成果很容易遭受这样那样的质疑。

    这样的问题林灰早就注意到了。

    凡事预则立,不预则废。

    对于这个问题,林灰准备了至少三个备选的答桉。

    林灰将他先前准备好的说辞说给了贺天昌教授。

    贺天昌有种茅塞顿开的感觉。

    贺不由得感慨果然长江后浪推前浪啊。

    不过,在林灰提到的几种方法中。

    贺天昌比较奇怪的还是借助互联网自动构建文本语料库这种方法:

    当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。

    而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

    从每个网站中筛选出用户所需要的文本作为候选语料。

    而后对形成的语料库进行去噪。

    事实上这种方法贺天昌记得以前看过国外大学一些学报似乎记录过这方面的研究。

    可国外那次失败了,因为采集到的语料库噪点太大,停用词过多,根本不堪一用。

    林灰为什么会提出这种方法。

    莫非林灰对去噪所用的算法一定有独到的理解。

    涉及到nlp什么的其实贺天昌也不是很擅长。

    但问题不大,贺天昌国内可是有些老朋友很是精于此道的。

    贺天昌默默将这事记下了。

    同贺天昌学术上的交流,林灰收获还是很大的。

    首先就是借贺天昌林灰知道了国内在自然语言处理前沿方向的研究情况。

    而国内现在在nlp方向的研究是什么状态呢?

    简单的概括就是“白纸一张”

    当然并不是说国内没有研究自然语言处理的,只是这些人研究的进度同国际上研究进度大致相彷。

    也就是说整体上落后于前世2014的研究进度的。

    在这种情况下,林灰想做学术搬运工的话似乎也是如入无人之境。

    整个自然语言处理以及神经网络学习这两个方向几乎就是林灰面前的一张白纸。

    等着林灰在上面书写下华丽的篇章。

    不过即便如此,涉及到具体执行的时候林灰也不会大包大揽。

    只需要林灰适时搞定一些关键的进展。

    涉及到一些琐碎方面的进展就没必要过于贪功了。

    毕竟学术方面的成果并不是一蹴而就的。

    随便一个涉及到生成式摘要算法这样简单理论背后的东西也是超级麻烦。

    尽管很麻烦但结果值得期许。

    在通话临近结束之时。林灰又几次三番地感谢了贺天昌教授为了帮他申请一些扶持这事。

    贺天昌却坚称即便将来有扶持性政策,也都是林灰应得的。

    话是这么说的,贺天昌心里也是这么想的。

    虽然贺天昌的研究方向涉及不到自然语言处理。

    但这并不等于贺天昌对涉及到自然语言处理这个研究方向一无所知。

    他山之石可以攻玉,科研中往往是有触类旁通的说法的。

    很多时候适当借鉴一下别的行业的研究思路能给自己的研究方向带来启发。

    因此纵然主攻方向不是自然语言处理这个方向。

    但这丝毫不影响贺天昌对别的研究方向关注。

    最起码对一些计算机以及计算机衍生方向取得的进展贺天昌还是很关心的。

    再加上自然语言处理这个方向比较友好,并不是需要很高的门槛。

    因此对自然语言处理这方面贺天昌也是涉猎一些的。

    至于林灰鼓捣的东西。

    因为最近对生成式摘要这个算法相关知识的恶补以及机缘巧合之下参加了一些和生成式摘要算法有关的学术会议。

    现在的贺天昌对生成式摘要算法还是很了解的。

    涉及到摘要的重要性自然不言而喻。

    这并不是贺天昌在牵强附会。

    摘要的能力相当直观地这反应了人们对信息的处理能力。

    在信息时代,谁对信息的处理能力越强谁就越能具有信息方面的优势。

    而信息差方面能够确立了优势无形中其余领域也具备了优势。

    涉及到摘要这个方向,传统的摘要算法都是抽取式摘要算法。

    这种算法很大程度上工作起来的样式很像是粗暴地“截搭”。

    而生成式则是计算机“通读”原文后,在理解整篇文章意思的基础上,按照预先给定的摘要模型生成流畅的概括。

    这种方式要求机器理解后概况。

    看得出来,相比于抽取式摘要算法生成式摘要算法更像是人的思维。

    能够做到这一点,生成式摘要算法用到的相应模型最起码要有比现有算法更强的表征能力、理解能力。

    虽然不知道林灰具体是怎么搞定这么强大的模型。

    但涉及到语料库这个最麻烦的问题林灰都有办法解决,顺手牵羊搞定别的难题也不奇怪。

    到现在为止,在贺天昌看来林灰已经创造太多太多的奇迹了。

    无论是学业上还是商业上抑或是事业上。

    在这堆奇迹光环的加持下,贺天昌觉得林灰即便是能够搞定生成式摘要算法也不算什么。

    甚至贺天昌还有预感,林灰的成绩绝不仅限于一个生成式摘要算法就完事了。

    林灰代表着一个未来!

    事实上,先前贺天昌就有这种感觉。

    同林灰接触地越多,贺天昌的这种感觉就越强烈。

    尽管不知道林灰所代表的这个未来到底是什么。

    但正所谓人老成精,贺天昌相信他的直觉。

    如果诚然如此的话,在林灰的价值观不偏离主流社会价值观的前提下。

    贺天昌感觉他愿意为林灰保驾护航。

    当然这也可能是只是他一厢情愿的想法而已。

    因为林灰的成长速度太快了。

    这种成长速度快到基于常识的判断可能出现很大的偏差。

    就拿之前的事情来说。

    在林灰获得高考状元之后。

    为了避免外界对林灰进行恶意的商业炒作来进行捧杀或棒杀。

    贺于是使用了一些手段让媒体不要无底线的报道。

    这样做以当时的眼光衡量可能是正确的。

    但之后贺天昌又觉得是错误的。

    因为像林灰这样的天才或许现在没经历过这种类似于捧杀事件和棒杀事件。

    将来迟早要经历。

    而恰恰是因为他的干涉使得林灰失去了一次可能的锻炼的机会。

    因此贺天昌在干涉了这件事之后一度认为他的行为很不对。

    为此一度很自责。

    可是在知道林灰选择了麻省理工学院之后。

    他感觉先前的做法又是正确的。

    如果不是当时要求媒体克制报道。

    使得林灰以一个高考状元的身份陷入到舆论的风波之中。

    到最后却又传出高考状元舍弃国内各大高校而去麻省理工学院。

    如果真的出现这样的论调。

    又恰逢有人借题发挥的话,那对林灰来说就不是锻炼的机会了。

    而是一次巨大的漩涡。