简介
编辑生物信息学中的机器学习是将机器学习算法应用于生物信息学,包括基因组学、蛋白质组学、微阵列、系统生物学、进化和文本挖掘。
在机器学习出现之前,生物信息学算法必须通过手工编程;对于蛋白质结构预测等问题,这被证明是困难的。
机器学习技术,如深度学习可以学习数据集的特征,而不是要求程序员单独定义它们。该算法可以进一步学习如何将低层次的特征组合成更抽象的特征等等。这种多层次的方法使得这种系统在经过适当的训练后可以做出复杂的预测。
这些方法与其他计算生物学方法形成对比,后者虽然利用了现有的数据集,但不允许以意想不到的方式对数据进行解释和分析。近年来,可用的生物数据集的规模和数量都急剧上升。
生物信息学中的机器学习的任务
编辑生物信息学中的机器学习算法可用于预测、分类和特征选择。实现这一任务的方法是多种多样的,跨越了许多学科;其中最知名的是机器学习和统计学。
分类和预测任务的目的是建立描述和区分类别或概念的模型,以便将来预测。它们之间的区别如下。
分类/识别输出一个分类类别,而预测输出一个数字值特征。算法的类型或使用类比、规则、神经网络、概率和统计学从数据中建立预测模型的过程。
由于信息技术和适用模型的指数级增长,包括人工智能和数据挖掘,除了访问越来越全面的数据集,新的和更好的信息分析技术已经创建,基于其学习能力。这种模型允许超越描述,并以可测试的模型形式提供洞察力。
机器学习方法
编辑人工神经网络
生物信息学中的人工神经网络已被用于比较和排列RNA、蛋白质和DNA序列,识别启动子和从与DNA相关的序列中寻找基因,解释表达基因和微阵列数据,识别基因的网络(调节),通过构建系统发育树学习进化关系,分类和预测蛋白质结构,分子设计和对接。
特征工程从领域数据中提取特征的方式,通常是多维空间的向量,是学习系统的一个重要组成部分。在基因组学中,一个典型的序列表示是一个k-mers频率的向量,它是一个维度为主成分分析等技术被用来将数据投射到一个较低维度的空间,从而从序列中选择一个较小的特征集。
生物信息学中的机器学习的分类
编辑在这种类型的机器学习任务中,输出是一个离散的变量。这种类型的任务在生物信息学中的一个例子是根据已经标记的数据模型来标记新的基因组数据(如不可培养的细菌的基因组)。
隐马尔科夫模型
编辑隐马尔科夫模型(HMMs)是一类用于连续数据的统计模型(通常与随时间演变的系统有关)。一个HMM由两个数学对象组成:一个观察到的依赖状态的过程。在HMM中,状态过程不是直接观察的--它是一个"隐藏的"(或"潜伏的")变量--但观察的是一个与状态相关的过程(或观察过程),它是由基础状态过程驱动的(因此可以被看作是对感兴趣的系统状态的噪声测量)。
HMMs可以用连续时间来表述。HMMs可用于剖析并将多序列排列转换成适合远程搜索数据库同源序列的特定位置评分系统。此外,生态现象也可以用HMMs来描述。
卷积神经网络
编辑卷积神经网络(CNN)是一类深度神经网络,其结构是基于卷积核或过滤器的共享权重,沿着输入特征滑动,提供被称为特征图的翻译变量响应。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175784/