众所周知,现如今数据中心所面临的工作负载主要分为以下几类。一类是以人工智能为代表的计算密集型工作负载,一类是通用工作负载,另一类则是高密度的横向扩展型工作负载,这些工作负载对数据中心的处理器提出的要求也各不相同,包括更高的性能、更高的密度、更高的带宽及内存,以及更高的能效等等。
因此,针对不断变化的数据中心需求,英特尔也基于异构架构做出了一次大胆的尝试,将数据中心芯片分为两类,一类是E-Core产品Sierra Forest,具备更高的能效,针对高密度和横向扩展工作负载进行了优化。另一类则是P-Core产品Granite Rapids,具备更高的性能、内核密度、内存和I/O创新,同时也有更高的能耗,针对计算密集型和 AI工作负载进行了优化。
值得一提的是,在架构设计方面,Sierra Forest和Granite Rapids全都采用了模块化的设计方式,通过fabric技术把模块化的die互连,从而实现更加灵活的架构。如此一来,可以将独立的计算和I/O的Chiplet实现更加灵活的组合,并借助EmiB封装技术实现高带宽和低延迟。换句话说,Sierra Forest和Granite Rapids是可以共享通用的I/O chiplet的。基于该架构的模块化 SoC包含通用 IP、固件、操作系统、平台组件等组件。
内存和I/O方面,下一代至强可扩展平台升级到了12个通道的DDR/MCR、1-2DPC,先进I/O支持136个通道的PCIe 5.0/CXL 2.0以及6个UPI 链路(144通道)。
扩展性方面,下一代至强可扩展平台支持1S-8S规格的 P 核以及1S-2S规格的E核。
兼容性方面,Sierra Forest和Granite Rapids与Birch Stream平台兼容(插槽、内存、固件和 I/O 兼容),提供了简化的硬件验证流程。它们还可以与相同的软件堆栈互操作。
从制程上看,P-Core和E-Core均采用了最新的Intel 3制程工艺,但也有所区别。
具体来说,P-Core采用了经验证的至强架构,优化了每核性能并提高了能效。软件功能方面,高级矩阵扩展AMX支持用于AI/ML的FP16,长度256位的内存加密秘钥、Code SW预取和取指分支提示、单线程 MBA+L2高速缓存分配技术/代码和数据优先级(CAT/CDP)。
同时微架构也对P-Core的性能实现了优化,包括64KB大小的16路指令高速缓存,改进分支预测和错误恢复,3-cycle FP乘法,以及更突出的内存请求和预取能力。
E-Core则是采用了全新的英特尔至强架构,具备优化的能效吞吐量性能。软件功能方面,支持BF16、FP16转换,并实现了对HLAT、CMPccXADD、LAM、LASS、AVX-IFMA、AVX-DOT-PROD-INT8的支持。
性能优化方面则包括64KB大小的I-cache、6-wide解码器、5-wide分配器、8-wide retire、2核或4核共享4MB L2、支持处理多达64个的outstanding misses。
整体上看,Granite Rapids可将AI工作负载性能提升2-3 倍,实现2.8倍的更高内存带宽,内存模组MCR DIMM带宽可提高30-40%;而Sierra Forest可在机架级别将机架密度提高250%,将每瓦性能提高240%,对此,英特尔信心满满地表示下一代至强处理器会是 "人工智能的最佳 CPU"。
此外与Sapphire Rapids相比,Sierra Forest面向云计算可将机架密度提高250%,将每瓦性能提高240%,可以说是分分钟吊打的级别了。
现如今,为互联网提供算力基础的数据中心正面临着越来越复杂的需求。一方面,庞大的数据量需要更加充沛的算力,另一方面,绿色数据中心的概念也推动着数据中心采用更高能效比的芯片设计,而近几年AI的火热,更是将高密度算力需求提升到了一个新的高度,纯靠堆砌核心数量的时代基本已经过去,不仅需要兼顾到计算单元、I/O 单元、内存的扩展性,还要考虑高速的互连网络和没瓦性能,从Sierra Forest和Granite Rapids已经披露出的信息来看,英特尔正在进行一次大胆且有效的尝试。
(8304769)
相关教程
2024-01-07
2024-06-14
2024-08-31
2023-10-16
2023-10-17
2023-11-27
2024-08-05
2023-06-07
2023-06-08
2023-06-30
2024-11-17
2024-11-16
2024-11-16
2024-11-15
2024-11-15
2024-11-15