特征工程
编辑特征工程或特征提取或特征发现是利用领域知识从原始数据中提取特征(特性、属性、属性)的过程。其动机是利用这些额外的特征来提高机器学习过程的结果的质量,而不是只提供原始数据给机器学习过程。
特征工程的过程
编辑特征工程的过程是。
集思广益或测试特征
编辑决定创建什么特征创建特征测试确定的特征对任务的影响如果需要的话,改进你的特征重复典型的工程化特征以下列表提供了一些典型的工程化有用特征的方法数值转换(如取分数或缩放)类别编码器,如one-hot或目标编码器(用于分类数据)聚类小组聚集值主成分分析(用于数值数据)特征构建:构建与问题相关的新的物理、知识参数。例如,在物理学中,构建无尺寸的数字,如流体力学中的雷诺数,热传导中的努塞尔数,沉积中的阿基米德数,构建解决方案的xxx近似值,如力学中的材料强度分析解决方案,等等。相关性特征的重要性各不相同。即使是相对不重要的特征也可能对一个模型有所贡献。特征选择可以减少特征的数量,以防止模型对训练数据集变得过于特殊(过度拟合)。
特征工程的爆炸
编辑当识别的特征数量不适当地增长时,就会发生特征爆炸。常见的原因包括。特征模板--实施特征模板而不是编码新的特征特征组合--不能用线性系统表示的组合特征爆炸可以通过以下技术加以限制:正则化、内核方法和特征选择。
自动化
编辑特征工程的自动化是一个可以追溯到1990年代的研究课题。自2016年以来,包含自动化特征工程的机器学习软件已经投入商业使用。相关的学术文献可以大致分为两种类型。多关系决策树学习(MRDTL)使用类似于决策树的监督算法。深度特征合成使用更简单的方法。多关系决策树学习(MRDTL)MRDTL通过向查询中连续添加子句,以SQL查询的形式生成特征。然而,大多数MRDTL的研究是基于关系数据库的实现,这导致了许多冗余的操作。这些冗余的操作可以通过使用元组ID传播等技术来减少。效率可以通过使用增量更新来提高,这就消除了冗余。
开源实现
编辑有许多开源的库和工具可以实现关系数据和时间序列的特征工程自动化。featuretools是一个Python库,用于将时间序列和关系数据转化为机器学习的特征矩阵。OneBM或一键式机器将关系数据上的特征转化和特征选择与特征选择技术相结合。[OneBM]帮助数据科学家减少数据探索时间,允许他们在短时间内尝试和错误许多想法。另一方面,它使不熟悉数据科学的非专业人士能够以少量的努力、时间和成本迅速从数据中提取价值。getML社区是一个开源的工具,用于在时间序列和关系数据上进行自动特征工程。它是用C/C++语言实现的,有一个Python接口。
它已被证明比tsflex、tsfresh、tsfel、featuretools或kats至少快60倍。tsfresh是一个用于时间序列数据特征提取的Python库。它使用假设检验来评估特征的质量。tsflex是一个开源的Python库,用于从时间序列数据中提取特征。尽管xxx由Python编写,但它已被证明比tsfresh、seglearn或tsfel更快、更节省内存。seglearn是scikitlearnPython库的一个多变量、连续时间序列数据的扩展。kats是一个用于分析时间序列数据的Python工具包。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175632/