简介
编辑数据分析中的数据增强是用来增加数据量的技术,方法是增加已经存在的数据的稍加修改的副本或从现有数据中新创建的合成数据。
在训练机器学习模型时,它可以充当正则器,帮助减少过拟合。它与数据分析中的超抽样密切相关。
传统机器学习的合成超采样技术
编辑图像分类的数据增强引入新的合成图像如果一个数据集非常小,那么用旋转和镜像等方法增强的版本可能仍然不足以解决一个特定的问题。
另一个解决方案是通过各种技术获取全新的合成图像,例如使用生成式对抗网络来创建新的合成图像以增加数据。
此外,图像识别算法在从虚拟环境中呈现的图像转移到真实世界的数据时显示出改进。
信号处理的数据增强
编辑残差或区块引导法可用于时间序列的增强。
生物信号
编辑合成数据增强对于机器学习分类来说是最重要的,特别是对于生物数据来说,这些数据往往是高维和稀缺的。残疾人和健全人的机器人控制和增强的应用仍然主要依赖于特定对象的分析。
数据的稀缺性在信号处理问题中很明显,如帕金森病肌电图信号,这些信号的来源很困难--扎尼尼等人指出,可以使用生成对抗网络(特别是DCGAN)来进行风格转移,以生成与帕金森病患者表现出的信号相对应的合成肌电图信号。
这些方法在脑电图(脑电波)中也很重要。Wang,等人探索了使用深度卷积神经网络进行基于脑电的情感识别的想法,结果显示,当使用数据增强时,情感识别得到了改善。还有人指出,OpenAI的GPT-2模型能够学习和生成合成的生物信号,如EEG和EMG。
在这项研究中,人们注意到,通过数据增强,识别率得到了提高。人们还注意到,在合成领域训练的统计机器学习模型可以对人类数据进行分类,反之亦然。
在图片中,通过GPT-2模型产生的EEG和人脑的一些例子进行了比较。一个常见的方法是通过重新安排真实数据的组成部分来产生合成信号。
Lotte提出了一种基于类比的人工试验生成方法,其中三个数据例子.这种方法被证明可以提高线性判别分析分类器在三个不同数据集上的性能。
目前的研究表明,相对简单的技术可以产生巨大的影响。例如,Freer观察到,在收集的数据中引入噪声以形成额外的数据点,提高了几个模型的学习能力,否则这些模型的表现相对较差。
Tsinganos等人研究了用于手势识别的幅度扭曲、小波分解和合成表面EMG模型(生成方法)的方法,发现在训练期间引入增强的数据时,分类性能可提高16%。
最近,数据增强研究开始关注深度学习领域,更具体地说,生成模型创建人工数据的能力,然后在分类模型训练过程中引入。
2018年,Luo等人观察到,有用的EEG信号数据可以由条件Wasserstein生成式对抗网络(GANs)生成,然后在经典的训练-测试学习框架中被引入训练集。作者发现引入这种技术后,分类性能得到了提高。
机械信号
编辑基于数据增强的机械信号预测带来了新一代的技术革新,如新能源调度、5G通信领域、机器人控制工程等。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175553/