第289章 高阶博弈:话语权之争
所谓的数据标注员是一种新兴职业。
前世,随着大数据以及人工智能时代的到来,为了应对数据标注的工作在互联网上出现了一种新型职业——数据标注员。
数据标注员的工作是使用相应的工具从互联网上抓取、收集数据,包括文本、图片、语音等等。
然后对抓取的数据进行整理与标注。
这些数据标注员工具体的工作流程一般很明确:
首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;
而后,根据事先安排好的规则对样本数据进行打标;
其次,对标注完以后的结果进行合并。
而算法数据标注员稍稍有别于一般的数据标注员。
相比于一般的数据标注猿,算法数据标注猿往往在完成以上的步骤之后。
还要通过标注的数据喂模型进而调试模型。
尽管工作流程只是多了这一步,但专业的算法数据标注员依旧是凤毛麟角。
从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。
往往还需要根据标注的数据进一步评估算法模型。
如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。
还得懂相应的算法。
同时满足这两个条件的人很多时候完全是凤毛麟角。
正因为这种专业标注的人员很少。
往往专家级标注只能够胜任小量级的数据。
对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。
对于大规模数据标记和超大规模数据标记往往只能寻求众包了。
众包模式是将零散的个人(包括兼职)、小标注团队,整合到平台上,完成一个完整项目的服务模式。
这种模式的主要优势成本很低,且比较灵活。
尽管前世机器学习长期所致力于的工作就是能够以众包数据或者干脆是无标数据取代专家标注。
但真要问专家标注和众包数据哪个受欢迎。
那自然是前者。
这种情况下夸大标注数据中专家标注所占的比例很容易收获到更高的溢价。
听起来似乎很奸商。
但也仅仅只是听起来而已。
如果林灰所大肆赞美的标注数据和现在的专家标注水平真的区别很大的话。
那林灰吹破大天也没用。
毕竟打铁还需自身硬。
林灰既然敢宣称标注数据中专家标注所占的比例很高自然有底气。
怎么说呢?
往后几年即便是一些非专家标注的数据,在行业标准化、规范化的情况下。
很多时候,就算是众包的数据也未必比现在的行业尚未完全标准化以及规划化的专家标注的水平差。
就算林灰拿往后几年的非专家标注数据去忽悠人。
想来这个时空也会有人去买账。
没办法,技术强势就是可以为所欲为。
通常时候,有钱确实可以为所欲为。
但为所欲为的同时别人很可能拿你当孙子。
有技术一样可以为所欲为。
但你为所欲为的时候,别人却得拿你当爷爷。
看看后世某些厂商拜寿式抢首发没特指,勿对号入座
大概就能够对“因技术而来的爷爷地位”这种说法管窥一二了。
2021时空来到2014时空。
这两个时空虽然只是七年的时间差。
但这就意味着林灰在大部分领域都最起码拥有七年的信息差。
而这个时代某些方面的短腿又使得林灰在部分领域拥有远不止于七年的信息差。
很多前世原本不那么先进的技术放到这个时空就是领先时代的存在。
如此一来,林灰真的可以为所欲为。
甚至于在这个时空的很多领域林灰真的就是爷爷级别的存在。
别人涉足同一领域那就是当孙子。
如果当孙子的话还会有人吗?
当然了,不知道多少人在排队当孙子。
有的领域即便是林灰的潜在地位没有“爷爷级”那么夸张。
但林灰同样是拥有相当明显的先知优势。
这种先知优势并不仅仅表现在技术细节先知上。
还集中表现在诸如路线优势等寻常人不容易察觉的细节上。
在多个领域拥有近乎于绝对优势的情况下。
林灰的地位是突出的。
潜在拥有的地位更是超然的。
甚至于只要林灰不去违法犯罪。
这几乎就是林灰可以为所欲为的时代。
不过除了法律这种硬性红线和最基础的人格底线之外。
总会有一个看不见摸不着的红线一样在影响着林灰。
当然,这条红线并不是道德。
事实上对于一些功成名就或者说小有所成的人道德方面基本上并没有红线,只有黄线。
普罗大众对功成名就或者说小有所成的人道德约束是相当宽泛的。
甚至于此前林灰已经做好了接受道德绑架的准备。
但事实是林灰还没有遭到这方面的控诉。
甚至还有很多人会尝试着往道德深渊的方向引诱着林灰。
就比如微/博上每天就有很多人天天给林灰发来各种要给他生猴子之类的私信。
甚至还热络地给林灰发来各种图鉴此时屏蔽制度基本摆设,就很无语。
尽管林灰内心有道德标准。
但涉及到道德方面的潜在约束力并不是林灰的潜在敌人。
真正的影响林灰的看不见摸不着的另一条红线。
那就是“合理性”。
很多时候顾念着合理性方面的考虑。
使得林灰不能够为所欲为。
纵然林灰很多技术是绝对意义上的领先,但依旧是没法肆无忌惮的搬运的。
有“合理性”这层看不见的红线存在。
林灰做事有很多顾忌。
如果是逻辑层面的合理性那么林灰无话可说。
林灰是尊重事物内在逻辑以及事情客观发展规律的人。
但问题是很多时候所谓的“合理性”并不是从逻辑方面出发的。
而是完全从“阵营”角度出发的。
相比于从逻辑层面的出发的合理性解读。
更常见的“合理性”解读的其实是后者。
什么是从阵营角度出发的评判规则呢?
说白了就是意识形态。
不过并不是所有的意识形态都热衷于合理性解读。
热衷于解读合理性的意识形态的主要代表自然是西方强行加给世界种种规则。
这种现象在科技领域、学术领域更是异常常见。
在搬运技术的时候,除了部分时候的合理性考量是从纯粹逻辑角度出发之外。
很多时候林灰觉得他为了合理性而做出的一些决策也只是顾念西方世界的规则而不得已进行的妥协而已。
话说,,,版。】
这些西方的规则看不见摸不着。
但却很多时候都在左右着林灰所做出的抉择。
这无疑很令人不爽,但想在规则下谋求利益就不得不屈服。
但毕竟很多时候都是先到者为王,后来者遭殃。
事实是即便是林灰穿越来的那个时候很多时候人们也不得不忍受着同样的局面。
索性的是,回到七年前,在拥有大量优势信息的时候。
林灰有望加速这一局面的改变。
林灰所进行技术搬运或者准备进行的各种技术搬运。
林灰最终极的目标就是能够跟现行世界西方所塑造的一些规则说再见。
当林灰成长到不需要依托于西方的规则也能立身的时候甚至于是西方反而要依托于林灰所制定的规则才能立身的时候。
那林灰完全可以跟西方现行的规则说再见。
这种对不基于逻辑的“合理性”解读的控诉不止是控诉某些容易引起不公正的制度。
这种对于“合理性”的控诉图穷匕见之后归根结底还是:
——“话语权”之争。
拥有话语权相当于能够自己去解释合理性。
“想要圣旨么?给你写一张。”
拥有绝对的话语权又相当于拥有了权威性。
而拥有了绝对的权威性甚至有的时候可以罔顾事实上客观规律性。
包括但不限于逻辑的合理性。
其场景大概为:“什么合理不合理,lz就是理,lz说合理那就是合理。”
涉及到权威性除了这种任性究竟有什么用呢?
当然有用,能够拥有这样的话语权以及权威性。
将使林灰搬运的速度直线拉满。
而且拥有绝对的权威性也可以使得林灰从前世所带来的信息能够收益直接最大化。
毕竟绝对的话语权意味着绝对的垄断。
当拥有绝对的权威性之后纵然林灰没想过追求市场的垄断,也能实现跟垄断差不多的效果。
就拿林灰刚刚想到的“标注数据”。
林灰在前世信息里有大量的标注数据。
涉及到机器学习的标注数据能用来换钱。
自然语言处理方面的标注数据同样能用来换钱。
但标注数据是来钱最快的吗?
当然不是。
涉及到自然语言处理方面真要说来钱更快的还得是狭义知识。
狭义知识同样是自然语言处理方面的知识来源。
应用于自然语言处理项目的知识来源主要有三大类:
——狭义知识、算法和数据。
古语云,书中自有黄金屋。
真实意义上的黄金屋虽然不尽然。
但知识能用来换钱,这个众所周知。
既然知识能够用来换钱。
那么知识来源的手段自然也能用来换钱。
前世,随着大数据以及人工智能时代的到来,为了应对数据标注的工作在互联网上出现了一种新型职业——数据标注员。
数据标注员的工作是使用相应的工具从互联网上抓取、收集数据,包括文本、图片、语音等等。
然后对抓取的数据进行整理与标注。
这些数据标注员工具体的工作流程一般很明确:
首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;
而后,根据事先安排好的规则对样本数据进行打标;
其次,对标注完以后的结果进行合并。
而算法数据标注员稍稍有别于一般的数据标注员。
相比于一般的数据标注猿,算法数据标注猿往往在完成以上的步骤之后。
还要通过标注的数据喂模型进而调试模型。
尽管工作流程只是多了这一步,但专业的算法数据标注员依旧是凤毛麟角。
从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。
往往还需要根据标注的数据进一步评估算法模型。
如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。
还得懂相应的算法。
同时满足这两个条件的人很多时候完全是凤毛麟角。
正因为这种专业标注的人员很少。
往往专家级标注只能够胜任小量级的数据。
对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。
对于大规模数据标记和超大规模数据标记往往只能寻求众包了。
众包模式是将零散的个人(包括兼职)、小标注团队,整合到平台上,完成一个完整项目的服务模式。
这种模式的主要优势成本很低,且比较灵活。
尽管前世机器学习长期所致力于的工作就是能够以众包数据或者干脆是无标数据取代专家标注。
但真要问专家标注和众包数据哪个受欢迎。
那自然是前者。
这种情况下夸大标注数据中专家标注所占的比例很容易收获到更高的溢价。
听起来似乎很奸商。
但也仅仅只是听起来而已。
如果林灰所大肆赞美的标注数据和现在的专家标注水平真的区别很大的话。
那林灰吹破大天也没用。
毕竟打铁还需自身硬。
林灰既然敢宣称标注数据中专家标注所占的比例很高自然有底气。
怎么说呢?
往后几年即便是一些非专家标注的数据,在行业标准化、规范化的情况下。
很多时候,就算是众包的数据也未必比现在的行业尚未完全标准化以及规划化的专家标注的水平差。
就算林灰拿往后几年的非专家标注数据去忽悠人。
想来这个时空也会有人去买账。
没办法,技术强势就是可以为所欲为。
通常时候,有钱确实可以为所欲为。
但为所欲为的同时别人很可能拿你当孙子。
有技术一样可以为所欲为。
但你为所欲为的时候,别人却得拿你当爷爷。
看看后世某些厂商拜寿式抢首发没特指,勿对号入座
大概就能够对“因技术而来的爷爷地位”这种说法管窥一二了。
2021时空来到2014时空。
这两个时空虽然只是七年的时间差。
但这就意味着林灰在大部分领域都最起码拥有七年的信息差。
而这个时代某些方面的短腿又使得林灰在部分领域拥有远不止于七年的信息差。
很多前世原本不那么先进的技术放到这个时空就是领先时代的存在。
如此一来,林灰真的可以为所欲为。
甚至于在这个时空的很多领域林灰真的就是爷爷级别的存在。
别人涉足同一领域那就是当孙子。
如果当孙子的话还会有人吗?
当然了,不知道多少人在排队当孙子。
有的领域即便是林灰的潜在地位没有“爷爷级”那么夸张。
但林灰同样是拥有相当明显的先知优势。
这种先知优势并不仅仅表现在技术细节先知上。
还集中表现在诸如路线优势等寻常人不容易察觉的细节上。
在多个领域拥有近乎于绝对优势的情况下。
林灰的地位是突出的。
潜在拥有的地位更是超然的。
甚至于只要林灰不去违法犯罪。
这几乎就是林灰可以为所欲为的时代。
不过除了法律这种硬性红线和最基础的人格底线之外。
总会有一个看不见摸不着的红线一样在影响着林灰。
当然,这条红线并不是道德。
事实上对于一些功成名就或者说小有所成的人道德方面基本上并没有红线,只有黄线。
普罗大众对功成名就或者说小有所成的人道德约束是相当宽泛的。
甚至于此前林灰已经做好了接受道德绑架的准备。
但事实是林灰还没有遭到这方面的控诉。
甚至还有很多人会尝试着往道德深渊的方向引诱着林灰。
就比如微/博上每天就有很多人天天给林灰发来各种要给他生猴子之类的私信。
甚至还热络地给林灰发来各种图鉴此时屏蔽制度基本摆设,就很无语。
尽管林灰内心有道德标准。
但涉及到道德方面的潜在约束力并不是林灰的潜在敌人。
真正的影响林灰的看不见摸不着的另一条红线。
那就是“合理性”。
很多时候顾念着合理性方面的考虑。
使得林灰不能够为所欲为。
纵然林灰很多技术是绝对意义上的领先,但依旧是没法肆无忌惮的搬运的。
有“合理性”这层看不见的红线存在。
林灰做事有很多顾忌。
如果是逻辑层面的合理性那么林灰无话可说。
林灰是尊重事物内在逻辑以及事情客观发展规律的人。
但问题是很多时候所谓的“合理性”并不是从逻辑方面出发的。
而是完全从“阵营”角度出发的。
相比于从逻辑层面的出发的合理性解读。
更常见的“合理性”解读的其实是后者。
什么是从阵营角度出发的评判规则呢?
说白了就是意识形态。
不过并不是所有的意识形态都热衷于合理性解读。
热衷于解读合理性的意识形态的主要代表自然是西方强行加给世界种种规则。
这种现象在科技领域、学术领域更是异常常见。
在搬运技术的时候,除了部分时候的合理性考量是从纯粹逻辑角度出发之外。
很多时候林灰觉得他为了合理性而做出的一些决策也只是顾念西方世界的规则而不得已进行的妥协而已。
话说,,,版。】
这些西方的规则看不见摸不着。
但却很多时候都在左右着林灰所做出的抉择。
这无疑很令人不爽,但想在规则下谋求利益就不得不屈服。
但毕竟很多时候都是先到者为王,后来者遭殃。
事实是即便是林灰穿越来的那个时候很多时候人们也不得不忍受着同样的局面。
索性的是,回到七年前,在拥有大量优势信息的时候。
林灰有望加速这一局面的改变。
林灰所进行技术搬运或者准备进行的各种技术搬运。
林灰最终极的目标就是能够跟现行世界西方所塑造的一些规则说再见。
当林灰成长到不需要依托于西方的规则也能立身的时候甚至于是西方反而要依托于林灰所制定的规则才能立身的时候。
那林灰完全可以跟西方现行的规则说再见。
这种对不基于逻辑的“合理性”解读的控诉不止是控诉某些容易引起不公正的制度。
这种对于“合理性”的控诉图穷匕见之后归根结底还是:
——“话语权”之争。
拥有话语权相当于能够自己去解释合理性。
“想要圣旨么?给你写一张。”
拥有绝对的话语权又相当于拥有了权威性。
而拥有了绝对的权威性甚至有的时候可以罔顾事实上客观规律性。
包括但不限于逻辑的合理性。
其场景大概为:“什么合理不合理,lz就是理,lz说合理那就是合理。”
涉及到权威性除了这种任性究竟有什么用呢?
当然有用,能够拥有这样的话语权以及权威性。
将使林灰搬运的速度直线拉满。
而且拥有绝对的权威性也可以使得林灰从前世所带来的信息能够收益直接最大化。
毕竟绝对的话语权意味着绝对的垄断。
当拥有绝对的权威性之后纵然林灰没想过追求市场的垄断,也能实现跟垄断差不多的效果。
就拿林灰刚刚想到的“标注数据”。
林灰在前世信息里有大量的标注数据。
涉及到机器学习的标注数据能用来换钱。
自然语言处理方面的标注数据同样能用来换钱。
但标注数据是来钱最快的吗?
当然不是。
涉及到自然语言处理方面真要说来钱更快的还得是狭义知识。
狭义知识同样是自然语言处理方面的知识来源。
应用于自然语言处理项目的知识来源主要有三大类:
——狭义知识、算法和数据。
古语云,书中自有黄金屋。
真实意义上的黄金屋虽然不尽然。
但知识能用来换钱,这个众所周知。
既然知识能够用来换钱。
那么知识来源的手段自然也能用来换钱。