当前位置: 纯净系统之家 >  微软资讯 >  英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

更新时间:2024-06-14 17:31:13作者:ycwjzy
在数字化浪潮的推动下,人工智能正成为重塑世界的关键力量,海量的推理、训练需求推动着底层硬件的新一轮更新与迭代。6月3日,在Computex 2024年的展会的主题演讲上,AMD正式公布了其代号为“Turin”的下一代的EPYC服务器处理器,旗舰产品拥有高达192个Zen 5核心和384个线程。AMD称其为“全球最好的数据中心处理器”。

当然,新产品的推出自然少不了数据上的对比,根据AMD官方公布的数据显示,与现有的Zen4 EPYC处理器相比,新一代Turin在性能上实现了显著飞跃,提供了2.5倍至5.4倍的性能提升。其128核心的Turin的性能达到了英特尔64核心的Xeon 8592+的3.1倍。

英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

不过从英特尔发布的声明来看,AMD针对两款产品在基准测试上的对比实际上“有失偏颇”,如果使用经过优化的开源软件进行基准测试的话,第五代至强可扩展处理器的表现反而会优于AMD的下一代EPYC处理器。

这也符合英特尔多年来“软硬结合”的思路,即通过软件优化更好地释放硬件潜能。作为英特尔于去年年底推出的产品,第五代至强可扩展处理器可以通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB)。以及软件生态方面的优化来满足众多的AI负载。

事实上,目前在 PyTorch、TensorFlow、DeepSpeed等开源框架上,英特尔都做出过重要贡献,英特尔不仅优化了这些平台,还将最新的技术创新投入到开源框架中,使更多企业和开发者受益。英特尔还举了一个对LLM推理进行不懈优化的例子:在2023年第三季度,与默认的PyTorch相比,LLM的延迟在10周内减少了5倍。这也从侧面印证了软硬件的协同的必要性。

英特尔表示,在Llama2-7B聊天机器人用例中。如果使用Intel Extension for PyTorch(P99延迟)对AMD的下一代Turin处理器和第五代至强可扩展处理器进行对比的话,第五代至强可扩展处理器的性能实际上比AMD展示的要高出5.4倍,达到了686 Tokens/s的输出,与此前AMD所展示的结果截然相反。

英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

同时英特尔还强调,与AMD Genoa和Bergamo相比,第四代和第五代英特尔至强可扩展处理器在流行的数据类型int8的一系列深度学习推理用例中也都实现了领先。

英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

虽然目前至强6的性能核产品Granite Rapids还尚未发布,不过从英特尔的规划来看。至强6900系列将包含最多包含128个性能核以及288个能效核的产品,并且拥有与下一代AMD EPYC处理器相同的12通道DDR5内存接口,两家厂商在AI领域的争夺依然十分激烈。

(8776152)

相关教程