多实例学习
编辑在机器学习中,多实例学习(MIL)是监督学习的一种类型。学习者不是收到一组单独标记的实例,而是收到一组标记的包,每个包都包含许多实例。在多实例二元分类的简单案例中,如果一个包中的所有实例都是负面的,那么这个包就可能被标记为负面。另一方面,如果一个包中至少有一个实例是正面的,那么这个包就被标记为正面。从已标记的包的集合中,学习者试图(i)诱导一个概念,以正确标记单个实例,或者(ii)学习如何在不诱导概念的情况下标记包。Babenko(2008)给出了一个简单的MIL例子。想象一下,有几个人,他们每个人都有一个钥匙链,里面有几把钥匙。其中一些人能够进入某个房间,而一些人则不能。那么任务就是预测某把钥匙或某条钥匙链是否能让你进入那个房间。为了解决这个问题,我们需要找到所有"正面"钥匙链所共有的确切钥匙。如果我们能正确识别这把钥匙,我们也能正确地对整个钥匙链进行分类--如果它包含所需的钥匙,则为正,如果不包含,则为负。
机器学习
编辑根据训练数据的类型和变化,机器学习可以大致分为三个框架:监督学习、无监督学习和强化学习。多实例学习(MIL)属于监督学习框架,每个训练实例都有一个标签,要么是离散的,要么是实值的。多实例学习处理的是训练集中标签的不完全知识问题。更确切地说,在多实例学习中,训练集由标记的"袋"组成,每个袋都是未标记实例的集合。如果一个袋中至少有一个实例是正面的,那么这个袋就是正面的标签,如果其中所有的实例都是负面的,那么这个袋就是负面的标签。MIL的目标是预测新的、未见过的包的标签。历史上,Keeler等人在20世纪90年代初的工作中是xxx个探索MIL领域的人。实际的术语多实例学习是在20世纪90年代中期由Dietterich等人提出的,当时他们正在研究药物活动预测的问题。他们试图创建一个学习系统,通过分析已知分子的集合,预测新分子是否有资格制造某种药物。分子可以有许多可供选择的低能状态,但只有一个或其中一些有资格制造药物。问题的出现是因为科学家们只能确定分子是否合格,但他们无法准确地说出其低能量形状中的哪一种是负责的。解决这个问题的拟议方法之一是使用监督学习,并将合格分子的所有低能量形状视为积极的训练实例,而将不合格分子的所有低能量形状视为消极实例。Dietterich等人的研究表明,这种方法会有很高的假阳性噪声,因为所有的低能量形状都被误标为阳性,因此并不真正有用。
他们的方法是把每个分子看作是一个有标签的包,而该分子的所有替代性低能量形状是包中的实例,没有单独的标签。因此形成了多实例学习。Dietterich等人提出的多实例学习问题的解决方案是轴-平行矩形(APR)算法。它试图搜索由特征的结合所构建的适当的轴平行矩形。他们在Musk数据集上测试了该算法,该数据集是药物活性预测的具体测试数据,也是多实例学习中最常用的基准。APR算法取得了xxx的结果,但APR是在考虑了Musk数据后设计的。多实例学习的问题并不是药物发现所独有的。1998年,Maron和Ratan发现了多实例学习在机器视觉中场景分类的另一个应用,并设计了DiverseDensity框架。给定一个图像,一个实例被认为是一个或多个固定大小的子图像,而实例包被认为是整个图像。如果图像包含目标场景--例如瀑布--则被标记为正面,反之则为负面。多实例学习可以用来学习描述目标场景的子图像的属性。
多实例学习的例子
编辑给定一个图像,我们想根据它的视觉内容知道它的目标类别。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175830/