业界即将用上的Intel Golden Cove高性能核心探秘

在不久前的迈入Chiplet时代的首款CPU:Intel公布Sapphire Rapids的众多细节一文中曾经提到,Intel将从这款CPU开始引入两种不同的计算核心,分别是高性能核心(Performance Core)和高效率核心(Efficiency Core),类似于ARM沿用已久的大小核架构。Intel之所以要走上ARM的这条路,根本原因还是在于提升x86 CPU性能的同时需要对CPU功耗进行合理管控。

按照Intel公布的CPU Core演进Roadmap,新一代的高性能核心代号为Golden Cove,而新一代的高效率核心则代号为Gracemont。由于高性能核心将决定CPU的最高计算性能,根据Intel已经公布的资料,我们就在本文中来深挖一下Intel在Golden Cove核心上具体做了哪些升级优化。

Intel CPU Core演进Roadmap

计算核心的电路看起来很复杂,但其实根据功能模块,可以将其划分为指令拾取单元(Instruction Fetch Unit)、微操作调度单元(uOP Scheduler)、乱序调度单元(OOO Scheduler)、标量/向量/甚至矩阵计算单元(Scalar/Vector/Marix Engine)、缓存子系统(Memory Subsystem)和电源管理单元(PM)这几个部分。根据新的制程工艺和电路设计方式,对这些部分逐个进行优化和性能提升,最终就能够实现CPU Core IPC性能的提升。

当然,Intel在新的Golden Cove核心上还根据应用需求增加了新的功能模块。为应对AI计算快速增大的代码规模和越来越大的数据集,Intel通过在每个计算核心上增加单独的矩阵计算引擎来加速AI模型计算;为提高每比特的功耗性能,Intel采用了新的智能电源管理控制器(Power Management Controller),从而进行更加精细化的功率管理。

Intel Golden Cove Core架构的特点

对于Core上每个模块的具体优化而言,在Golden Cove Core的前端,Intel在原有基础上加宽了指令位宽、增大了指令缓存容量、加深了微操作队列的深度,这使得Core的前端部分变得更大,有助于提高分支预测(branch prediction)的精度。

Intel对Golden Cove Core前端的升级

Golden Cove Core的乱序引擎(Out of Order Engine)同样是在更宽、更深、更智能这三方面进行提升,从而在每个时钟周期内能够处理更多的计算工作。

Intel对Golden Cove Core乱序引擎的升级

整数执行单元相比上一代设计增加了一组Port/ALU单元,从原有的四组变为了五组,这样在同一个时钟周期里可以做更多的整数计算。

Intel对Golden Cove Core整数计算单元的升级

向量执行单元增加了两个FADD模块,用于进行快速向量加法计算。原有的FMA(乘积累加:Fused Multiply-Add)单元增加了对FP16数据格式的支持,使得在AVX512指令集里可以进行FP16格式数据的计算。

Intel对Golden Cove Core向量计算单元的升级

对于计算Core必不可少的L1级缓存,Intel同样进行了一定程度的扩容。这样一来,在L1级缓存处可以储存更多的数据,从而降低数据读取的延时。

Intel对Golden Cove Core L1级缓存的升级

在L2级缓存处,Intel将容量分为了两种规格。1.25MB的L2 Cache对应普通用户,通常会用在桌面级的Alder Lake CPU上;2MB的L2 Cache对应数据中心用户,显然将会用在Sapphire Rapids这样的CPU上。相比于当前在售的Ice Lake Xeon处理器1.25MB L2 Cache,Sapphire Rapids CPU的L2 Cache将会增加60%,这无疑是硬件性能上的一次较大幅度提升。

Intel对Golden Cove Core L2级缓存的升级

以上的所有这些改进汇总起来,对于通用负载而言,CPU计算核心的IPC性能平均可以提升19%。相比于过去几代Xeon CPU产品计算核心IPC性能3%-5%的小幅提升,这一次Golden Cove Core的性能提升总算是满足了业界的期望。

Intel Golden Cove Core带来的IPC性能提升

除了以上所述的这些常规升级之外,Golden Cove Core最令人感兴趣的是其新增的高级矩阵计算扩展模块AMX(Advanced Matrix Extensions)。在前不久的除了推理,Intel在CPU AI训练上还有着更大的雄心!一文中,对AMX模块的特性做了专门的分析。总的来说,AMX类似于NVIDIA GPU里的Tensor Core。在Golden Cove Core上增加专门的矩阵计算单元,将大大增强CPU的AI推理能力。Intel显然希望用户能够不依赖NVIDIA T4或A4这样的低功耗GPU卡,直接在CPU上完成所需的AI推理计算工作。当然,基于AMX还有望更进一步,将一些小规模的AI模型直接在CPU上进行快速的训练计算。

Intel Golden Cove Core AMX模块带来的矩阵计算性能提升

坦率地说,Intel之所以会在Golden Cove Core上做如此众多的性能提升,主要还是其正在面对竞争对手AMD所带来的不断增加的市场压力。除了第一代全新设计的Zen架构带来计算性能的飞跃之外,AMD在Zen2和Zen3架构上分别提供了15%和19%的IPC性能提升。根据AMD CEO Lisa Su在不同场合的演讲,正在开发中的Zen4架构仍将会实现两位数的IPC性能提升。考虑到Xeon CPU在芯片核数上一时还无法赶上EPYC处理器,那么Intel至少要在IPC性能上迎头赶上AMD的Zen架构。当然,对于用户而言,这两家企业的市场竞争带来的是更高性能的产品。

AMD每代Zen架构带来的性能提升

总 结

从对Intel Golden Cove高性能核心的深入探究可以看到,通过增大指令宽度、加深缓存深度和添加新的功能模块,Golden Cove核心相比上一代计算核心有了较大幅度的性能提升。这一性能提升将会在2022年开始普及的桌面级Alder Lake CPU和服务器级Sapphire Rapids CPU上得以体现。由于Intel还开发了新一代的高效率Gracemont核心,这对节省CPU功耗有所帮助,因此我们将在另一篇文章中对这一高效率核心的升级优化点进行深入挖掘分析。

下一篇
« Prev Post
上一篇
Next Post »