NVIDIA特斯拉_维典百科

▪ GT200
▪ 费米
▪ 开普勒
▪ GK104

▪ GK110
▪ GK210
▪ 麦克斯韦
▪ GM200

▪ GM204
▪ 帕斯卡
▪ GP100

NVIDIA特斯拉

Tesla是一款采用高度并行化设计的处理器，也被称为流处理器，来自英伟达。该处理器基于 GPU 技术，可通过内部 CUDA API 和 OpenCL 进行处理。该产品与竞争对手 AMD 的 FireStream 和 FirePro 直接竞争。

在 2007 年年中推出第一款基于 G80 GPU 的显卡后，一年后推出了带有 GT200 图形芯片的 Tesla 显卡，该芯片也用于 Geforce 200 系列的台式机显卡。

2009年9月30日，Nvidia在其内部的“GPU技术大会”上展示了代号为“Fermi”的下一代图形处理器，用于Geforce 400系列。 Nvidia 在 2010 年第二和第三季度的 ’09 超级计算交易会上宣布了基于 Fermi 图形处理器的 Tesla 卡。

使用更新的驱动程序，OpenGL、CUDA 和 OpenCL 中的选项已得到显着扩展。

技术

编辑

特斯拉

G80

G80 图形处理器是 Nvidia 的第一款基于新开发的 Unified Shader 架构的处理器。自 2006 年底 G80 安装在 Geforce 显卡 8800 GTX 和 GTS 之后，Nvidia 在 2007 年年中推出了第一款 Tesla 型号。 G80 主要用于 A3 步进，安装在 Geforce 8800 Ultra 上。

GT200

GT200 处理器是 Nvidia 安装在 Tesla 系列上的第二款芯片。与 G80 相比，Nvidia 计划从一开始就在 Tesla 模型上使用它并根据 IEEE 754R 规范通过 30 个额外的 MADD 单元实现双精度功能，这很重要对于 Geforce 显卡就没有必要了。

费米

费米核心采用 40 纳米制造工艺制造，拥有大约 30 亿个晶体管。与其前身 GT200 相比，它在很大程度上是基于 G80 图形处理器统一着色器架构的全新开发。 Fermi 分为 16 个着色器集群，每个集群有 32 个流处理器。因此总共有 512 个流处理器。 Fermi 芯片有 16 个“加载/存储”单元，以及四个用于正弦和余弦计算的独立“特殊功能单元”。 Ferm 内核上还有六个用于 GDDR5 内存的 64 位内存控制器，从而形成一个 384 位内存接口。这使得内存可以扩展到 1.5 GB、3 GB 和 6 GB。内存控制器现在还可以处理 ECC 内存，它有自己的纠错功能。

Nvidia 现在越来越重视 GPU 计算，这也是为什么在 Ferm 核心架构上做了很多改动，以提高这方面的性能。 Fermi 是第一个完全支持 C++ 并完全兼容 IEEE 754-2008 标准（以前的 IEEE 754-1985）的图形处理器。为了能够使用比 MAD 更准确的 FMA来提高双精度能力（双精度计算），后者变得必不可少。这允许 Fermic 核心的每个着色器集群在每个时钟周期执行 16 次双精度运算。这使得 Fermi 每个时钟可以执行总共 256 次双精度计算，而 GT200 上只有 30 次。同样为了提高GPU的计算能力，Fermi图形处理器除了共享内存外，还有L1和L2缓存。

开普勒

GK104

2012 年 3 月 22 日，Nvidia 推出了 Geforce GTX 680，这是 Geforce 600 系列中第一款引入全新 Kepler 架构的显卡。 Geforce GTX 680 基于 GK104 图形处理器，该处理器由 35.4 亿个晶体管以及组织在八个着色器集群中的 1536 个流处理器和 128 个纹理单元组成。 GK104 GPU 在台积电采用 28 纳米制造工艺制造，芯片面积为 294 平方毫米。从降低的“双精度”性能可以看出，在Nvidia放弃GK100图形处理器转而使用GK110后，GK104也不得不用于高端领域，因为GK110仅用于开普勒刷新一代应该能得到的。

GK110

GK110 GPU 在大约 561 平方毫米上拥有 71 亿个晶体管，是开普勒一代中最大、最复杂的图形处理器。它由分布在 15 个 SMX 块（着色器集群）上的 2880 个着色器和 240 个纹理单元组成。这些依次分布在五个图形处理集群上，为 GK110 提供 3:1 的比率。 GK110 的另一个特殊功能是每个 SMX 块额外有 64 个独立的 ALU，它们不负责单精度 (FP32)，但负责双精度运算 (FP64)。同样适用于专业领域且仅在 GK110 GPU 上可用的是“动态并行”、“Hyper-Q”和“GPUDirect”功能。

GK210

由于Maxwell架构的限制，GK110的改进版GK210图形处理器专为Tesla系列设计。

麦克斯韦

GM200

GM200 图形处理器也作为 Geforce 900 系列中的高端芯片，取代了 Geforce 700 系列中的 GK110 GPU。 GM200在601平方毫米的芯片面积上拥有80亿个晶体管，是当时市场上最大、最复杂的图形处理器。从技术角度来看，GM200 是 GM204 的 50% 大版本，具有 96 个光栅、3072 个着色器和 192 个纹理单元。然而，这也与其前辈有显着差异：GF100、GF110 或 GK110 GPU 仍然扩展了双精度功能 (FP64)，也用于专业系列 Quadro 和 Tesla。为此，在 GK110 z 上。例如，每个 SMX 块中安装了 64 个独立的 ALU，这导致 DP 率为 1/3。由于 GM200 上没有这些单独的 ALU（它们可能由于空间原因被取消，因为出于技术和经济原因几乎不可能生产大于 600 mm² 的 GPU），它只有 1/ 32 的 DP 率由于 3D 应用不需要双精度运算，这方面在游戏领域没有发挥作用，反而让 GM200 不太适合专业的 Quadro 和 Tesla 系列。

因此，Nvidia 放弃了之前为所有三个系列开发高端/发烧友芯片的策略，只为 Tesla M40 使用了 GM200。相反，Kepler GK110 的改进版本 GK210 图形处理器专为 Tesla K80 设计。

GM204

GM204 GPU是Geforce 900系列中的第一款GPU，采用“第二代Maxwell架构”。与第一代 Kepler Geforce 600 系列一样，Nvidia 在高端芯片（GM200）之前推出性能芯片（GM204）。 Nvidia 和 AMD 一样，在台积电放弃 20 纳米生产后，GM204 将继续以 28 纳米生产，这与原计划相反。它在 398 平方毫米的芯片面积上拥有 52 亿个晶体管。基本结构与第一代 Maxwell 的 GM107 GPU 相同：着色器集群 (SMM) 仍然包含 128 个着色器和 8 个纹理单元，但一级缓存已从 64 kByte 增加到 96 kByte，纹理 -每个集群的缓存从 24 kByte 增加到 48 kByte。 GM204 总共包含 16 个着色器集群，其中四个集群分别连接到一个光栅引擎，为 GM204 提供 2048 个流处理器、128 个纹理单元、64 个 ROP 和一个 2 MB 二级缓存。为了弥补与同类其他 GPU 相比较小的 256 位内存接口，Nvidia 引入了“第三代 Delta Color Compression”功能，这是一种带宽节省器，据说可以减少大约 25% 的内存负载。

由于双精度性能限制为单精度的 1/32，因此采用开普勒架构的 Tesla K 卡将继续提供更高的性能。

NVIDIA特斯拉

帕斯卡

GP100

Pascal芯片的名称为“GP100”，据说由于其高计算能力和效率，特别适合高性能计算和深度学习。凭借 Tesla P100，Nvidia 于 2016 年春季在 GPC 2016 上展示了首款采用 GP100 芯片的计算加速器。 Pascal 旨在在中期取代专业领域的 Kepler 和 Maxwell 图形芯片。 GP100 由 150 亿个晶体管组成，包含多达 3840 个着色器核心。 Nvidia 在台积电制造 GP100 GPU 使用 16 nm FinFET 工艺，与之前的 28 nm 技术相比，可确保显着提高能效。在内存方面，Nvidia 使用的是 HBM 2，至少在 Tesla P100 上是这样。与目前仅由 AMD 在具有 Fiji GPU 的显卡上使用的 HBM 1 相比，HBM 2 可实现更高的传输速率和每个 GPU 的更多内存。

与 AMD 的 Fiji 同类产品一样，GP100 位于插入器上，并通过总共 4096 条数据线连接到 16 GB ECC 保护的 HBM-2 内存。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/376476/