第287章 巨额的隐形财富

    前世生成式对抗网络自出现以来,针对不同的应用领域出现了许多变体。

    这些变体相对于最原始的生成式对抗网络都进行了一定的改进。

    这些改进有的是单纯改进了结构。

    有的则是因为理论上的发展而对生成式对抗模型涉及到的一些函数或者说参数进行了一定的改进。

    推荐下,追书真的好用,这里下载大家去快可以试试吧。】

    再或者就是单纯就应用方面进行了一定的创新调整。

    一项技术被频繁改动不是说明这项技术失败。

    刚好相反,这恰恰说明这项技术很成功。

    因为这某种程度上从侧面反映了该技术有很多的成长空间。

    事实也正是如此,前世生成式对抗网络是相当成功且应用广泛的。

    在很多机器学习领域都能看到生成式对抗网络的身影。

    之所以如此大概是因为原始的生成式对抗网络在构建的时候,先验假设比较少。

    正是因为对数据几乎没有任何假设使得生成式对抗网络具有几乎不设限的建模能力。

    借助于生成式对抗网路可以拟合多种分布。

    此外,由于生成式对抗网路模型不甚复杂。

    很多时候在应用生成式对抗网络的时候就不需要预先设计较为复杂的函数模型。

    在不少生成式对抗网络的应用场景中,工程师甚至只需要应用反向传播算法简单训练一下对应的网络。

    就可以让生成式对抗网络中的生成器和判别器正常工作。

    之所以将生成式对抗网络搞得这么比较易上手。

    跟生成式网络的设计初衷是为了进行无监督学习也有很大的关系。

    不过事物都是有两面性的,正是因为原始生成式对抗网路过于自由。

    训练过程很容易出现训练发散的情况。

    不止于此,生成式对抗网络还存在诸如梯度消失等问题。

    由于这些问题的存在,生成式对抗网络是很难学习一些生成离散的分布的。

    就比如原始的生成式对抗网路就不是很擅长纯粹文本方面的处理。

    除了涉及到部分场景下会将生成式对抗网络用于文本分割之外。

    多数时候很少将生成式对抗网络应用于文本特指纯粹文字形式的文本方面。

    不过尺有所长寸有所短,虽然并不是很擅长对纯粹文本信息的处理。

    但在其余很多领域生成式对抗网路都可以大显身手。

    在人脸识别方面、超分辨率重建等方面生成对抗网络更是大有用武之地。

    甚至是在语义图像修复方面生成式对抗网络同样是可以大显身手。

    除此之外,生成式对抗网络还有很多应用方向。

    概括地说,生成式对抗网络的应用前景是相当广阔的。

    说起来因为在这个时空机器学习方面的研究比较滞后。

    林灰想搬运生成式对抗网络这一模型的话其实也不需要担太多风险。

    尽管如此,在将生成式文本摘要方面的彻底搞定之前。

    林灰也不着急将生成式对抗网络相关的研究成果搬运出来。

    至于为什么林灰不将生成式对抗网络搬出来?

    林灰不想给外界其余的学术人员一种割裂感。

    就像林灰在过往游戏开发搬运时不想给游戏玩家一种割裂感一样。

    虽然林灰现在已经有了一定的将生成式对抗网络的推出逻辑基础。

    林灰此前搞得生成式文本摘要里面涉及到的生成式模型,而从尹芙·卡莉那收购来的专利中又涉及到类判别式模型,而生成式对抗网络其组成正是包含有生成式网路和判别式网路……

    但如果林灰贸然搞出生成式对抗网路依旧不是很好。

    毕竟生成式对抗网络就应用层面来说和林灰现在一向搞得自然语言处理这一学术领域其实关系不太大。

    在这种情况下,林灰莫名其妙推出一个和自然语言处理几乎没啥关系的模型算怎么回事呢?

    虽然学术方面无心插柳柳成荫的例子很多,很多学术成果最开始问世的时候目的往往是跑偏的。

    但林灰内心信奉的原则是注定了林灰不大可能打破此前延续的惯例。

    无论是游戏开发还是学术进展上,林灰都不想给别人一种割裂感。

    而且,科技树还是按顺序点比较好。

    虽然说作为挂比不按顺序点科技树也可以。

    但在多元化的社会下不按规矩办事往往就意味着风险。

    乱点科技树,自己的科技逻辑链没形成。

    潜在对手却形成了相应的发展脉络。

    那么科技成果很有可能被对手所窃取。

    这是林灰所不愿意看到的。

    现在在林灰看来学术方面他所要做的依然是深耕自然语言处理。

    深耕生成式文本摘要。

    通过不断的深耕,从自然语言处理这一领域找到破局点

    或者说点亮相邻于林灰已点亮科技成果的科技树分支才是最好的。

    林灰倒也不着急,即便是一时之间未找到合适的破局点其实也关系不大。

    起码是一个月林灰还是不需要太担心的。

    毕竟就生成式文本摘要这方面取得的“突破性进展成功的搬运”林灰最起码也能“混”一个硕士学位。

    而这也是要林灰消化一段时间了。

    其实林灰原本的估计更加乐观。

    林灰原本是觉得将生成式文本摘要这个方向的论文搞清楚,就差不多能博士了。

    不过通过最近跟尹芙·卡莉的交流,林灰觉得是他过于乐观了。

    就像诺奖级成果不一定真的能获得诺奖一样。

    就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

    但想藉此一步到位获得博士毕业论文也是很有难度的。

    毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

    这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西,亦即工程上的成果。

    而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

    虽然涉及到生成式文本摘要在学术上的收益这个稍微低于林灰的预期,不过问题不大。

    林灰觉得学术上步子太大也不完全是好事情。

    既然短时间不搬运生成式对抗网路。

    那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

    当然不是。

    很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

    关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

    那就是前世的人工标注数据。

    虽然没太认真翻看前世一同携带来的信息。

    但人工标注的数据林灰不可能是没有的。

    尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

    就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

    毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

    要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

    尤其是监督学习和半监督学习更是需要大量的人工标注数据。

    通常一个模型在架构的时候需要很多的人工标注的数据。

    在调整的时候也需要很多的人工标注数据。

    举这样一个例子:

    在图象识别里面,经常我们可能需要上百万的人工标注的数据,

    在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

    涉及到机器翻译更是需要数千万语句标注数据。

    说实话作为一个来自前世往后几年的技术人员。

    此前涉及到人工标注数据的价值林灰还真没太当回事。

    但现在看来,这玩意的价值此前明显被林灰忽视了。

    林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

    一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

    如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

    可以看到数据标注的费用是非常非常高的。

    而这仅仅是2017年的数据标注成本。

    在现在的话标注成本岂不是意味着更高的数据标注费用?

    要知道现在几乎不怎么注重无监督学习。

    在无监督学习方面更是几乎没啥可堪一用的模型。

    在主流的机器学习依旧是靠监督学习和半监督学习。

    而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

    以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

    如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

    那么在机器学习整体比较滞后的这个时空的2014年。

    同样的1000万条双语数据标注需要多少钱呢?

    林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

    “两三亿美元”这个数据似乎有点吓人。

    但其实也不夸张。

    之所以说不夸张有两方面的原因:

    一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

    而在此之前,涉及到数据标注从来就跟“便宜”两个字不沾边。

    同样拿此前林灰所列出的例子作为援引:

    在前世2017年1000万条双语互译标注的成本约为2200万美元;

    注意这仅仅是双语互译的标注。

    “双语互译”只是某两种语言之间的互译标注。

    只是两种语言之间的互译标注就需要两千多万美元?

    那涉及到上百种语言的互译需要多少钱呢?

    这个问题并不复杂,简单的排列组合问题:

    c(100,2)==4950;4950022亿美元==1089亿美元;

    不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

    而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。

    毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。

    虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。

    但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。

    同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。

    而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。

    二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世纪五六十年代花费上千万美元搞出来的占地几百甚至是上千平方米的计算机。

    这种情况下后世很便宜的计算器拿到几十年前纵然是要价上百万美元同样是有市场的,而且可能还会相当有竞争力。

    举这个例子并不是说林灰要再往前几十年去卖计算器。

    林灰只是想藉此说明时代的车轮是向前的,科技也是在飞快发展的。

    尤其是在中后互联网时代,科技的发展说是日新月异也丝毫不为过。

    在这种情况下,往后几年一些不怎么被人过分重视的技术在几年前能够换取大额的财富是很正常的。

    更何况还是利用数据标注这个相当长一段历史时期内都只能是土豪公司才玩得转的东西去换取财富?

    总之,林灰没觉得“在现在1000万条双语标注数据怎么着也得要个两三亿美元”这个估算的有什么问题。

    甚至于,即便是“两三亿美元的价格”给旁人一种很夸张的感觉。

    但实际上林灰这个价格估算的可能还有点保守。

    在人工智能的产业结构中,主体包含有应用层、技术层和基础层。

    应用层包含有解决方案和产品服务。

    技术层包含有应用技术、算法理论和平台框架。

    而基础层则包含有基础设施和数据。

    从这个角度来衡量的话,某种程度上甚至可以将数据是人工智能的基石。