MCPLive > 杂志文章 > 巨兽来袭开普勒GK110全面解析（上）

巨兽来袭开普勒GK110全面解析（上）

2012-09-21李实《微型计算机》2012年9月上

喜欢

在GPU发展史上，大核心产品通常能代表当时的技术巅峰，比如R580+、G80、GT200、GF100等。这些大核心产品在穷尽工艺极限的同时，带来了无与伦比的强大3D计算能力和人类对终极图形性能的渴求。在“开普勒”家族的发布会上，那个喜欢带来大家伙的NVIDIA却一反常态，并没有推出一颗大核心的产品和AMD的Tahiti抗争，反而发布了一颗更为“小巧精壮”的GK104。那么NVIDIA的“重型武器”在哪里呢？很快，我们看到了这颗强大的GK110，这是才是“开普勒”家族的王者之作。

GK110，对它的期盼和它即将带来的全新技术都几乎令人抓狂。这颗穷极目前晶体管制造工艺的巨兽，如果没有一个令人震撼的表现，那么无论是玩家、厂商还是NVIDIA自己，都肯定会极为不满意。不过借由GK104的强劲表现，GK110只要不出大的纰漏，拿下单核心GPU王座应该不在话下。现在，NVIDIA已经提前公布了GK110的大部分细节，那么这款巨兽究竟有怎样的设计？它的性能表现又如何？

71亿晶体管的巨兽 GK110规格纵览

NVIDIA给出的资料已经基本可以清楚地了解GK110的规格，GK110内部集成了71亿个晶体管，这个数字比目前全球人口还要多。举例来说，如果GK110的晶体管可以全部被拆分出来，那么除全球每人可以得到一个晶体管外，剩余的部分大约还可以做成一颗Pentium 4处理器（大约5000万个晶体管）。GK110将采用台积电28nm工艺，功耗很可能控制在300W以内。根据NVIDIA要求开普勒的每瓦特双精度性能达到费米的3～4倍来看，GK110的功耗不高于310W，至少也有230W左右。

NVIDIA公布的几代GPU的一些性能对比数据

从规格来看，GK110设计了15个SMX核心，每个SMX核心拥有192个CUDA Core，共计2880个CUDA Core。此外，在双精度能力上，GK110相比GK104也有大幅度进步。GK110的双精度性能是单精度的1/3（在GK104上这个数据是1/24），相当于每个SMX单元有64个双精度的FMA单元。它的显存位宽为384bit，显存频率未知，但估计不会低于5GHz。GK110的显存和缓存都支持ECC校验功能，对高性能计算用户非常有帮助。

GK110的架构图

在用户为关注的性能方面，由于目前尚未公布GK110的频率，因此对GK110的浮点计算能力还不是很清楚。但根据NVIDIA公布的资料，可以简单估算一下：GK110正式产品在开启14个SMX核心、782MHz的频率下，应该拥有4.2TFlops的单精度性能和1.4TFlops的双精度性能。如果是1GHz、开启所有的15个SMX核心的话，那么单精度性能将会进一步上升到5.76TFlops，双精度性能更是进一步提升到1.92TFlops—这距离2TFlops的关卡已经不远了。要知道在6年前只有Top500排行内超级计算机才可能拥有超过2TFlops的计算能力。而NVIDIA的主要竞争对手AMD的FirePro W600的单精度计算能力虽然达到4TFlops，双精度计算能力也只有1TFlops，落后NVIDIA一些。英特尔即将推出的Xeon Phi的顶级版本研发目标是单精度能力约为2TFlops，双精度能力也只有1TFlops，相比GK110都有所不如。当然，需要说明的是双精度性能实际上只对小部分需要高精度计算的用户来说很有用，对绝大部分用户包括民用计算领域的用户来说，单精度计算已经足够满足需求。比如目前比较热门的光线追踪、物理应用计算以及大部分工程类计算上，单精度依旧是绝大部分用户选择的计算方式。

GK110的SMX细节结构图

除了上述的物理规格外，NVIDIA还公布了GK110的一些技术规格，比如GK110的Compute Capability（计算能力）升级到了3.5代，而之前的GF100被称为2.0，GK104则是3.0。此外在Threads/Warp（线程/波次）上，开普勒和费米系列都维持了32的规格，也就是每周期小数据宽度为32线程。大的多处理能力方面，GK110多拥有64个波次（Warp），线程处理大可以达到2048（64×32），这两个数据都相比费米时代有了重大提升—GK110相比GF100每周期线程数量提升了约33%。

需要特别说明的是，由于此次NVIDIA介绍的GK110主要着重点在计算性能方面，对玩家所关注的图形性能的介绍不多，比如曲面细分能力、多边形生成能力等，基本上没有公开数据予以展示。由于图形性能基本上不受GK110新加入的双精度能力等新特性的影响，因此玩家可以简单将其看作GK104的放大版本，本文也基本不涉及GK110的有关图形方面的性能介绍。事实上，只要频率确定，GK110的性能水平就能够由GK104的同频率性能通过简单的规模放大计算推理得出。

除此之外，GK110其他的提升主要在一些功能方面，比如支持全新的Hyper Q、动态平行分配、栅格管理单元以及GPUDirect等内容。