简介
编辑AI加速器是一类专门的硬件加速器或计算机系统,旨在加速人工智能和机器学习应用,包括人工神经网络和机器视觉。
典型的应用包括机器人、物联网和其他数据密集型或传感器驱动的任务的算法。它们通常是多核设计,一般侧重于低精度算术、新型数据流架构或内存计算能力。
截至2018年,一个典型的人工智能集成电路芯片包含数十亿个MOSFET晶体管。
这类设备存在一些供应商的特定术语,它是一种没有主导设计的新兴技术。
AI加速器的历史
编辑计算机系统经常用专门任务的特殊用途加速器来补充CPU,被称为协处理器。著名的特定应用硬件单元包括图形的视频卡、声卡、图形处理单元和数字信号处理器。
随着深度学习和人工智能工作负载在2010年代的崛起,专门的硬件单元被开发出来,或从现有产品中改编,以加速这些任务。
早期的尝试
编辑像英特尔的ETANN80170NX这样的首次尝试结合了模拟电路来计算神经功能。后来像Nestor/IntelNi1000这样的全数字芯片接踵而来。
早在1993年,数字信号处理器就被用作神经网络加速器来加速光学字符识别软件。
在20世纪90年代,还有人尝试为工作站创建并行的高吞吐量系统,旨在实现各种应用,包括神经网络模拟。
基于FPGA的加速器也在20世纪90年代首次被探索用于推理和训练。
智能手机从2015年的高通骁龙820开始加入了人工智能加速器。
异构计算
编辑异构计算指的是在一个系统中,甚至是在一个芯片中加入一些专门的处理器,每个处理器都为特定类型的任务进行了优化。
诸如Cell微处理器这样的架构具有与人工智能加速器明显重叠的特征,包括:支持打包的低精度算术,数据流架构,以及将"吞吐量"置于延迟之上。Cell微处理器随后被应用于包括人工智能在内的许多任务。
在2000年代,在视频和游戏工作负载的推动下,CPU也获得了越来越宽的SIMD单元;以及对打包低精度数据类型的支持。
由于CPU的性能不断提高,它们也被用于运行AI工作负载。对于具有小规模或中等规模并行性的DNN,对于稀疏的DNN和低批处理规模的场景,CPU更有优势。
使用GPU
编辑图形处理单元或GPU是用于操作图像和计算局部图像属性的专门硬件。神经网络和图像操作的数学基础是类似的,涉及矩阵的令人尴尬的并行任务,导致GPU越来越多地被用于机器学习任务。
截至2016年,GPU在人工智能工作中很受欢迎,它们继续朝着促进深度学习的方向发展,用于训练和推理的设备,如自动驾驶汽车。
NvidiaNVLink等GPU开发商正在为AI受益的那种数据流工作负载开发额外的连接能力。随着GPU被越来越多地应用于人工智能加速,GPU制造商已经纳入了神经网络专用硬件,以进一步加速这些任务。
使用FPGA
编辑深度学习框架仍在不断发展,因此很难设计定制硬件。可重新配置的设备,如现场可编程门阵列(FPGA),使得硬件、框架和软件更容易同时发展。
微软已经使用FPGA芯片来加速推理。专用人工智能加速器ASIC的出现虽然GPU和FPGA在人工智能相关任务方面的表现远远优于CPU,但通过特定应用集成电路(ASIC),采用更具体的设计,可能会获得高达10倍的效率。
这些加速器采用了诸如优化内存使用和使用低精度算术的策略,以加速计算并增加计算的吞吐量。一些采用的低精度浮点格式的AI加速器是半精度和bfloat16浮点格式。
谷歌、高通、亚马逊、苹果、Facebook、AMD和三星等公司都在设计自己的AIASIC。
Cerebras系统公司还在业内xxx的处理器--第二代WaferScaleEngine(WSE-2)的基础上建立了一个专门的AI加速器,以支持深度学习工作负载。
内存计算架构
编辑2017年6月,IBM研究人员宣布了一种与冯-诺伊曼架构相反的架构,基于内存计算和相。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/174105/