英特尔第五代至强可扩展处理器AI性能优化胜过AMD EPYC Turin

更新时间：2024-06-14 17:31:13作者：ycwjzy

在数字化浪潮的推动下，人工智能正成为重塑世界的关键力量，海量的推理、训练需求推动着底层硬件的新一轮更新与迭代。6月3日，在Computex 2024年的展会的主题演讲上，AMD正式公布了其代号为“Turin”的下一代的EPYC服务器处理器，旗舰产品拥有高达192个Zen 5核心和384个线程。AMD称其为“全球最好的数据中心处理器”。

当然，新产品的推出自然少不了数据上的对比，根据AMD官方公布的数据显示，与现有的Zen4 EPYC处理器相比，新一代Turin在性能上实现了显著飞跃，提供了2.5倍至5.4倍的性能提升。其128核心的Turin的性能达到了英特尔64核心的Xeon 8592+的3.1倍。

不过从英特尔发布的声明来看，AMD针对两款产品在基准测试上的对比实际上“有失偏颇”，如果使用经过优化的开源软件进行基准测试的话，第五代至强可扩展处理器的表现反而会优于AMD的下一代EPYC处理器。

这也符合英特尔多年来“软硬结合”的思路，即通过软件优化更好地释放硬件潜能。作为英特尔于去年年底推出的产品，第五代至强可扩展处理器可以通过更多的核心数（64核心）、更大的内存带宽（5600MT/s）、更大的三级缓存（320MB）。以及软件生态方面的优化来满足众多的AI负载。

事实上，目前在 PyTorch、TensorFlow、DeepSpeed等开源框架上，英特尔都做出过重要贡献，英特尔不仅优化了这些平台，还将最新的技术创新投入到开源框架中，使更多企业和开发者受益。英特尔还举了一个对LLM推理进行不懈优化的例子：在2023年第三季度，与默认的PyTorch相比，LLM的延迟在10周内减少了5倍。这也从侧面印证了软硬件的协同的必要性。

英特尔表示，在Llama2-7B聊天机器人用例中。如果使用Intel Extension for PyTorch（P99延迟）对AMD的下一代Turin处理器和第五代至强可扩展处理器进行对比的话，第五代至强可扩展处理器的性能实际上比AMD展示的要高出5.4倍，达到了686 Tokens/s的输出，与此前AMD所展示的结果截然相反。