数据标注是做什么的
使用特定工具对图像、文本等进行处理的工作。
数据标注是使用特定工具对图像、文本等进行处理的工作。
1、分类标注:分类标注,就是我们常见的打标签,从既定的标签中选择数据对应的标签;
2、标框标注:机器视觉中的标框标注,就是框选要检测的对象;
3、区域标注:相比于标框标注,区域标注要求更加精确,边缘可以是柔性的等。
数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。
要理解数据标注,得先理解AI其实是部分替代人的认知功能。回想一下我们是如何学习的,例如我们学习认识苹果,那么就需要有人拿着一个苹果到你面前告诉你,这是一个苹果。然后以后你遇到了苹果,你才知道这玩意儿叫做“苹果”。
类比机器学习,我们要教他认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个啥玩意的。我们得先有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张苹果的图片,它就能认出来了。这边可以顺带提一下训练集和测试集的概念。
训练集和测试集都是标注过的数据,还是以苹果为例子,假设我们有1000张标注着“苹果”的图片,那么我们可以拿900涨作为训练集,100张作为测试集。机器从900张苹果的图片中学习得到一个模型,然后我们将剩下的100张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。想想我们上学的时候,考试的内容总是不会和我们平时的作业一样,也只有这样才能测试出学习的真正效果,这样就不难理解为什么要划分一个测试集了。
我们知道机器学习分为有监督学习和无监督学习。无监督学习的效果是不可控的,常常是被用来做探索性的实验。而在实际产品应用中,通常使用的是有监督学习。有监督的机器学习就需要有标注的数据来作为先验经验。在进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。
-
约法三章的故事
公元前207年,刘邦在攻入咸阳后,想住在王宫里面。樊哙和张良却劝诫刘邦不要这样做,以免失去人心。刘邦受了他们的意见,下令接将王宫封闭,只留下少数士兵保护王宫和库房,随即退军至霸上。为了取得民心,刘邦还把关中的百姓召集起来,并宣布约法三章。约法三章的故事约法三...
-
文房四宝中歙砚的产地歙县在哪里
文房四宝中歙砚的产地歙县在哪里的答案是:安徽省歙县,安徽省黄山市辖县,位于皖南地区,北与宣城市绩溪县和浙江省杭州市临安区交界,东南与浙江省杭州市淳安县、衢州市开化县毗连,西南与黄山市屯溪区、休宁县相邻,西北与黄山市徽州区、黄山区接壤。地处皖南山区,丘陵起伏...
-
亚特兰大是哪个国家的
亚特兰大是哪个国家的的答案是:美国亚特兰大(Atlanta)位于美国东部,坐落在海拔350米的阿巴拉契亚山麓的台地上,美国三大高地城市之一,是富尔顿县的县政府驻地,是美国第9大都市区,亦是美国佐治亚州首府和最大的工商业城市。作为一个铁路枢纽,亚特兰大的发展始于19世纪早...
-
赢荡举鼎而亡是不是真的
赢荡举鼎而亡是不是真的的答案是:是赢荡是秦惠文王的长子,也就是后来的秦武王。不过赢荡只活了23岁就去世了,而原因则是因为举鼎的时候出现了意外,被鼎砸断胫骨,也就是小腿内侧的长骨。秦武王身高体壮,天生有神力,孔武好战,从小就喜欢与勇士们做有关力气方面的游戏。同...