标签化数据
编辑标签化数据是一组被贴上一个或多个标签的样本。标签化通常采用一组无标签的数据,并在其中的每一块上增加信息标签。例如,一个数据标签可能会表明一张照片中包含一匹马还是一头牛,在一段录音中说了哪些话,在一段视频中执行了什么类型的动作,一篇新闻文章的主题是什么,一条推文的整体情绪是什么,或者X射线中的一个点是否是一个肿瘤。标签可以通过要求人类对给定的无标签数据做出判断而获得。标签数据的获取成本明显高于原始的无标签数据。
众包标签数据
编辑2006年,斯坦福大学以人为本人工智能研究所的联合主任李飞飞,着手通过大幅扩大训练数据来改善图像识别的人工智能模型和算法。研究人员从万维网上下载了数百万张图片,一个本科生团队开始为每张图片贴上物体的标签。2007年,李明远将数据标签工作外包给了亚马逊MechanicalTurk,这是一个数字计件工作的在线市场。由49,000多名工人贴上标签的320万张图片构成了ImageNet的基础,ImageNet是xxx的手工标签数据库之一,用于物体识别的轮廓。
自动数据标记
编辑在获得标记的数据集后,可以将机器学习模型应用于数据,这样就可以将新的未标记的数据提交给模型,并猜测或预测该片未标记的数据的可能标签。
数据驱动的偏见
编辑算法决策会受到程序员驱动的偏见以及数据驱动的偏见的影响。尽管机器学习算法是合法的,但依赖有偏见的标记数据的训练数据将导致预测模型中的偏见和遗漏。用于训练特定机器学习算法的标记数据需要是一个具有统计学代表性的样本,以避免对结果产生偏见。因为可用于训练面部识别系统的标记数据一直不能代表一个群体,所以标记数据中代表性不足的群体后来经常被错误分类。2018年,JoyBuolamwini和TimnitGebru的一项研究表明,两个用于训练面部识别算法的面部分析数据集IJB-A和Adience分别由79.6%和86.2%的浅肤色人类组成。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175726/