Marvell推出Octeon 10 400Gbps DPU卡


DPU(Data Processing Unit)正在成为越来越热闹的一个领域,在NVIDIA率先推出BlueField-2 DPU产品之后,Intel也在前不久公布了其IPU产品开发计划。而现在,通过Octeon 10 DPU芯片,Marvell也开始加入这一战局之中。如果对于DPU和SmartNIC的异同不清楚,可以读读搞不懂SmartNIC和DPU?那就来看看这篇科普小文。

在Marvell看来,其在DPU领域的投入要追溯到2005年。通过收购Cavium公司,Marvell拥有了第一代DPU产品:Octeon multicore处理器。当时这款处理器主要用在防火墙这类安全产品上。经过多年的发展,Marvell最新推出的Octeon 10芯片已经可以算是其第七代的DPU产品了。

Marvell Octeon DPU的发展历程

当前推出的Octeon 10 DPU芯片具有很多业界领先的技术特性。首先,这是一款基于TSMC最新的5nm工艺制程来设计和加工的芯片。其次,该芯片内部使用了ARM Neoverse产品线最新的N2核心作为计算部分。最后,该芯片为加解密、包处理和AI推理功能提供了硬件加速能力。

Marvell Octeon 10 DPU的主要特性

具体来说,集成在Octeon 10 DPU芯片里的交换带宽最高达到了1Tbps,大幅超过了NVIDIA BlueField-2 DPU芯片目前200Gbps(2×100Gbps)的带宽大小,可以与NVIDIA下一代BlueField-3 DPU芯片进行对标。基于ARM Neoverse N2核心,Octeon 10 DPU芯片的SPECint(2006) Benchmark测试数据达到1000+,同样大幅超过BlueField-2 DPU芯片。除此之外,Marvell还给出了在加解密、存储和AI推理能力方面的性能指标所处等级的参考数据。

Marvell Octeon 10 DPU平台的性能指标

除了上面提到的这些硬件特性之外,Marvell Octeon 10 DPU芯片另一个值得关注的亮点是其内部集成了DDR5内存控制器。在设计DPU板卡的时候,芯片外部可以接新一代带宽更大的DDR5内存颗粒,用于数据的缓存。Marvell对DDR5内存控制器的使用,表明除CPU之外的其它芯片厂家也开始向DDR5时代演进。

Marvell Octeon 10 DPU芯片在硬件上的亮点

为了提供AI推理功能,Octeon 10 DPU芯片里集成了独立的ML引擎。该引擎可以支持Int8和FP16这两种在AI模型推理计算方面最为主要的数据格式。通过在每个瓦块(Tile)里配置专有的SRAM,可以在硬件层面有效地提升对AI推理数据的就近处理能力。

Marvell Octeon 10 DPU芯片里的AI引擎

DPU芯片兼有网络包处理的能力,而Marvell在网络芯片领域也有较强的实力,因此在Octeon 10芯片上,Marvell将当前广泛使用的SPP(Scalar Packet Processing:标量包处理)功能替换为了最新的VPP(Vector Packet Processing:矢量包处理)功能。VPP最初是由Cisco推出的一款可拓展的开源框架,提供易于使用、高质量的交换、路由功能,其最大的特点是高性能且能运行在普通的CPU上。对于采用ARM Neoverse N2核心的Octeon 10 DPU芯片而言,使用VPP来处理网络数据包更为合适。

Marvell Octeon 10 DPU芯片里的VPP模块

Marvell也给出了使用ARM Neoverse N2核心构建的CPU模块的框图。在当前NVIDIA BlueField-2 DPU上使用的还是老一代的ARM A72核心,通过使用更新的ARM Neoverse N2核心,Octeon 10 DPU可以获得更多的计算性能。作为性能对比的一个参照,NVIDIA将在2023年推出的BlueField-4 DPU芯片的SPECint CPU 2006 Benchmark跑分也将会和Octeon 10 DPU一样达到1000左右,这基本上是Intel在2017年发布的Skylake Xeon Silver CPU的等级。

Marvell Octeon 10 DPU芯片里的ARM N2核心

集成在Octeon 10 DPU芯片里的交换模块可以提供最多1Tbps的交换带宽。其中16个50GbE通道提供给芯片外部,最多可以支持2个400G端口;还有3个50GbE通道则用于芯片内部与SoC部分的互连。

Marvell Octeon 10 DPU芯片里的交换模块

软件平台对DPU芯片而言异常重要,是发挥其效能的关键点之一。Octeon 10 DPU芯片即支持DPDK/SPDK这样的开放框架,也支持Docker/Hypervisor这样的虚拟化层,以及在其之上的网络/存储/安全/管理软件协议栈。在NVIDIA方面,则是在今年推出了针对其BlueField DPU的DOCA(Datacenter infrastructure-On-a-Chip Architecture)SDK平台。由于DPU还是一个新生事物,哪一家的软件平台更好用、更完善,还有待时间的验证。

Marvell Octeon 10 DPU芯片的软件平台

虚拟化功能是当今ICT领域各种设备必须要支持的一项重要功能,对于具有强大计算和数据处理能力的DPU芯片而言,通过虚拟化充分发挥其性能是非常有必要的。

Marvell Octeon 10 DPU芯片的虚拟化

Marvell宣称Octeon 10 DPU具有服务功能链(service function chaining)的能力,该功能主要用在网络通信过程中。通过将特定的网络应用功能有序地组合起来,再让网络数据流量通过这些服务功能,就可以构成网络服务链。虽然当前DPU主要用在云和数据中心市场,但Marvell也计划将其扩展到5G ORAN等网络应用中。

Marvell Octeon 10 DPU芯片的服务功能链

DPU这一产品的推出,就是要在云计算和数据中心里实现更强的卸载功能,使得CPU能够有更多资源来处理用户的应用程序。Marvell给出的下面框图描述了这一应用方式。

Marvell Octeon 10 DPU在云和数据中心的应用方式

Marvell将在2021 Q4推出Octeon 10 DPU开发平台。在这块PCIe标卡形态的DPU卡上,配置的是具有24个ARM Neoverse N2核心的DPU芯片。这块板卡对外提供2个100GbE网络端口、支持PCIe Gen5信号速率,并放置有16GB容量的DDR5内存颗粒。

Marvell Octeon 10 DPU开发平台

根据网络端口速率、数据通路带宽、芯片核心数和安全/加解密性能的不同,Marvell认为其Octeon 10 DPU平台可以覆盖网络边缘/5G应用、企业网应用和云数据中心应用。

Marvell Octeon 10 DPU平台的覆盖范围

由于要覆盖的领域很广,Marvell在Octeon 10产品系列上推出了多款DPU芯片。这些芯片的功耗在10W到60W之间,Neoverse N2核心数则在8核心到36核心之间。对于最高规格的DPU400芯片,其SPECint 2006的跑分已经达到1200以上,相当于Intel Xeon Gold 5100 CPU的等级了,可以想象其已经具有相当高的数据处理能力。

Marvell Octeon 10 DPU平台多种产品规格

总 结

NVIDIA BlueField-2 DPU开创了一种新品类的产品,作为该领域的领导者,NVIDIA已经向业界提供了现成的产品可供使用。Intel随之跟进,推出了与之竞争的IPU产品。现在,Marvell也要加入这一领域的竞争了。通过推出Octeon 10 DPU平台,Marvell为用户提供了从低到高的多款DPU芯片可供选择。

相比于使用了FPGA芯片的Intel IPU产品,Marvell Octeon 10 DPU芯片通过使用ARM核心,可以降低编程难度门槛,因此适用面会更广一些。但与NVIDIA已有现成产品相比,Marvell仍需努力,在2021 H2/2022年间拿出实际可用的产品出来进行市场竞争。

下一篇
« Prev Post
上一篇
Next Post »