Intel公布Sapphire Rapids的众多细节

作为今年第三代Ice Lake Xeon处理器的接任者,Intel在过去的几个月里挤牙膏般地透露着第四代Xeon处理器Sapphire Rapids CPU的信息。但在今年的架构日上(Intel Architecture Day 2021),Intel终于向业界正式地公布了Sapphire Rapids CPU的众多设计细节和特性。在这众多新特性中,最令人感兴趣的就是Chiplet技术的引入,使得Sapphire Rapids CPU成为了Intel迈入Chiplet时代的首款Xeon处理器。

正如业界已知的那样,Sapphire Rapids CPU上将会使用新的计算核心、提供更多的核心数、增加专有和共享的缓存,以及对DDR5、新一代奥腾持久内存和PCIe 5.0速率的支持。Intel将这些新特性称为服务器节点级的性能提升点。

Intel Sapphire Rapids CPU服务器级的性能提升点

除了针对服务器本身的性能提升点外,Intel还提供了针对数据中心应用的性能提升点。这包括更好的遥测(telemetry)、虚拟化、弹性伸缩和数据加速处理等功能,使Sapphire Rapids CPU在云和多租户场景下能够更好地发挥作用。

Intel Sapphire Rapids CPU针对数据中心的性能提升点

Sapphire Rapids CPU芯片封装内部使用了模块化的SoC芯片和EMIB(Embedded Multi-Die Interconnect Bridge:嵌入式多核心互联桥接)技术,从本质上来说,这意味着Intel终于从当前Ice Lake CPU单一大Die的设计模式开始向Chiplet设计模式进行转变。

采用Chiplet技术的Sapphire Rapids CPU

在过去的几年,Intel在与AMD进行市场竞争的时候,经常会指出AMD Chiplet技术的缺点。但有趣的是,Sapphire Rapids CPU所采用的Chiplet设计方式与AMD在2017年推出的第一代EPYC Naples处理器的Chiplet设计方式非常类似。在Sapphire Rapids CPU的Socket里,总共有4个相同的全功能Die,通过EMIB实现这4个Die之间的互连。与2017年的AMD EPYC CPU有所不同的是,Intel现在所设计的Die可以采用更快的速率进行Die间通信,从而有助于规避AMD EYPC Naples CPU当初Die间延时较大的问题。

Sapphire Rapids CPU内部的四个Chiplet模块

Intel宣称其现有的设计即可以提供单一大Die的性能,也兼具多Die的好处。不过考虑到AMD从2017年开始就彻底转向Chiplet技术,并在Chiplet技术上已有5、6年的经验积累,Intel对于Chiplet技术的实际使用能力距离AMD可能仍然有一定的差距。

Sapphire Rapids CPU的性能取决于每一个单独大Die的性能,因此Intel在2021架构日上对这个大的SoC Die进行了较为详细的说明。Intel将Die上所用到的IP分为了三大类,分别是针对计算的IP、针对I/O的IP和针对内存的IP。

Sapphire Rapids CPU内部Die上所用到的IP

在Die上的计算核心处,Intel将会使用Golden Cove高性能核心和Gracemont高效率核心。通过扩大Cache容量、增加指令宽度等方式,服务器CPU上所用的Golden Cove核心将会比桌面级的版本性能提升15%以上。

Sapphire Rapids CPU内部的高性能核心

除了核心本身计算性能的提升之外,更值得关注的是Intel为Golden Cove核心增加了针对AI矩阵运算的AMX(Advanced Matrix Extensions)功能。虽然NVIDIA的GPU在AI模型训练领域占据了绝大部分的市场空间,但在AI模型推理领域,Intel的CPU仍然可以有所作为。

Sapphire Rapids CPU内部核心的新特性
经过多年的发展,Intel的CPU上已经集成了针对不同应用的多个计算加速引擎。在现代CPU中使用加速引擎进行卸载(offload)已经是非常普遍的做法,这不仅可以加快数据处理,还可以有效地节省计算核心的指令周期,从而提高CPU整体的计算效率。

Sapphire Rapids CPU Die上的加速引擎

DSA就是这些计算加速引擎中的一个。通过加入DSA(Data Streaming Accelerator)引擎,可以将对流数据的拷贝、搬移和格式转换等工作从计算Core分离出去。根据Intel给出的数据,通过DSA卸载后,CPU Core可以多出39%的计算周期。

Intel DSA加速引擎带来的CPU效率提升

QAT(Quick Assist Technology)也是Intel CPU中存在了好多年的针对网络安全和数据存储的硬件加速计算引擎。在Sapphire Rapids CPU里,QAT能够加密的数据流量可以达到400Gbps,压缩和解压缩能力可以达到160Gbps。根据Intel给出的数据,使用QAT功能后,卸载效果可以高达98%。

Intel QAT加速引擎带来的CPU效率提升

对于Die上的IO模块,在Sapphire Rapids CPU上有着较多的更新点,不过很多在本公众号以往的文章中都做过介绍。PCIe Gen5速率和基于此的CXL 1.1协议应该算是业界最关注的提升点。对于CXL协议,在本公众号之前的CXL前瞻:服务器领域将迎来怎样的新架构时代!一文中对其特点和未来在服务器中的应用方式做了一番梳理和分析。用于CPU间互联的UPI 2.0链路不仅在数量上提升到了4组、每组x24 Link的规模,其信号速率也升级到了16GT/s。考虑到PCIe信号速率的提升,UPI链路也需要对应地进行升级,从而实现带宽之间的匹配。

Sapphire Rapids CPU Die上IO模块的新特性

在内存方面,每个Die上仍然对外提供2个内存控制器,使得Sapphire Rapids CPU总共有8个内存控制器,对应8个内存通道/16个内存插槽。虽然内存通道数并没有增加,但新的内存控制器可以支持更高速率的DDR5内存。在这些内存通道上,毫无疑问也会对Intel自己的第三代奥腾持久内存提供支持。另一个值得关注的点是片上Cache容量的增加,Intel将提供总计大于100MB的二级缓存,这将有助于提升Sapphire Rapids CPU的IPC性能。

Sapphire Rapids CPU Die上内存模块的新特性

在常规内存之外,Intel终于为Sapphire Rapids CPU加上了HBM内存。作为片上内存,HBM内存可以为计算Core提供更大带宽、更低延时、更大容量的数据存储空间。当然,HBM内存的加入必然会增加成本和功耗。因此,估计只有高端的Sapphire Rapids CPU SKU才会提供该配置项。在GPU、FPGA和AI加速芯片都开始大量使用HBM内存的当下,Intel新一代CPU终于跟上了这一业界技术发展趋势。

Sapphire Rapids CPU对HBM内存的支持

总结

Intel在2021架构日上对Sapphire Rapids CPU总体特性做的这番介绍,不仅确认了很多业界之前的传闻,也让业界对即将到来的新一代Xeon处理器有了更多的期待。总的来说,Sapphire Rapids将是一款全新的Xeon芯片,助力Intel在数据中心市场与AMD的激烈竞争。在下周举行的Hot Chip 33大会上,Intel还会公布更多Sapphire Rapids CPU芯片内部的细节,到时本公众号也会跟进做介绍。

Sapphire Rapids CPU原定于今年底推向市场,但根据Intel在今年6月份公布的延期计划,该款处理器要到2022 Q1才会正式推向市场。AMD已经确认了代号为Genoa的EPYC 7004系列处理器正在按计划开发中,将会在2022上半年如期发布。有传闻说Genoa CPU将会具有更大规模的96核心/196线程计算资源,并也会有带HBM内存的版本。由此可见,2022年的服务器CPU市场仍将延续目前火热的竞争局面。对广大用户而言,这反倒意味着CPU将以更快的速度升级,普及众多新的技术特性。

下一篇
« Prev Post
上一篇
Next Post »