据介绍,Flow的FPU能够集成到任何当前已有或即将推出的CPU设计架构、指令集或工艺几何结构中,可提供革命性的 100 倍加速,可立即用于基于冯·诺依曼的标准计算机设计,以实现“CPU 2.0”级别的吞吐量。PPU还消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。
Flow称,片上集成的 PPU 内核越多,获得的性能提升就越高。同时,SoC当中的其他计算单元也将受益于PPU的性能的提升,以及PPU对CPU性能的提升。
此外,通过Flow提供的编译器对 PPU 进行重新编译,PPU 与该 CPU 架构的每个现有软件应用程序可完全向后兼容,可以大大加速所有现有软件和应用程序中的现有并行功能,而无需更改任何软件。
从应用来看,Flow的突破性架构将可增强嵌入式系统和数据中心的性能,适用于边缘和云计算、AI 云、跨 5G/6G 的多媒体编解码器、自动驾驶汽车系统、军用级计算等用途。
目前,Flow 已经在与来自世界各地的主要半导体供应商进行初步讨论,以寻求下一代 CPU 性能的“圣杯”。更多技术细节将在 2024 年下半年公开分享。
Flow Computing联合创始人兼首席执行官Timo Valtonen表示:“在过去的几十年里,CPU性能只有渐进式的改进,这导致了CPU实际上已成为计算中最薄弱的环节,因为它的顺序架构并不理想。为了满足对更多计算性能的不断增长的需求,CPU性能的新时代已成为必要条件,这在很大程度上是由人工智能以及边缘和云计算的需求推动的。Flow 打算通过其全新的并行性能单元 (PPU) 架构引领 SuperCPU 革命,使任何 CPU 的性能提升 100 倍,无论架构如何,并具有完全的向后软件兼容性。”
Butterfly Ventures的合伙人兼联合创始人Juho Risku也表示:“由于CPU改进速度在过去十年中放缓,科技行业的每个行业都继续受到影响。Flow 是这一趋势的第一个重大变革者,它提供了数倍的性能,而不是几个百分点。而且在我们看来,Flow 将对计算市场的基线性能产生比量子计算等更广泛的影响。尽管很多公司在人工智能方面投入了大量资金,但通用计算将主导其成本并限制其能力。Flow Computing正在通过使下一代SuperCPU轻松超越当前的行业领导者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100来解决这个问题,“
据悉,Flow公司刚刚获得了 400 万欧元的种子轮融资。参与种子轮融资的实体包括Butterfly Ventures(领投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬兰商务促进局。
一、什么是并行处理单元?
据Flow公司官网介绍,并行处理单元 (PPU) 是一个 IP 模块,可以与同一芯片上的 CPU 紧密集成。它被设计为高度可配置,以满足众多用例的特定要求。
支持的自定义选项包括:
PPU 中的内核数(4、16、64、256 等)
功能单元的数量和类型(如 ALU、PPU、MU、GU、NU)
片上存储器资源(缓存、缓冲区、暂存器)的大小
对指令集进行了修改,以补充 CPU 的指令集扩展
对 CPU 的修改很少,包括将 PPU 接口集成到指令集中,并可更新 CPU 内核的数量,以利用新的性能水平。
Flow的参数化设计允许广泛的定制,包括 PPU 内核的数量、功能单元的种类和数量以及片上存储器资源的大小。性能会随着 PPU 内核数量的增加而增加。4 核的 PPU 非常适合智能手表等小型设备,16 核 PPU 非常适合智能手机,而 64 核 PPU 可为 PC 提供出色的性能;256 核 PPU 最适合 AI、云和边缘计算服务器等高需求环境,使它们能够轻松处理最苛刻的计算任务。
二、拥有三大核心优势
据介绍,Flow的并行处理单元 (PPU)具有三大核心优势:
1、Flow 创新的并行处理单元 (PPU) 将 CPU 性能提升 100 倍,开创了 SuperCPU 时代。
创新的并行处理单元 (PPU)专为完全向后兼容而设计,可在重新编译后增强现有软件和应用程序。功能越并行,性能提升就越大。
同时,Flow的技术还增强了整个计算生态系统。比如,辅助组件(矩阵单元、矢量单元、NPU 和 GPU)也可通过增强的 CPU 功能获得了增强的性能。这一切都要归功于 PPU。
2、传统软件和应用程序速度提高 2 倍
Flow 的 PPU 不仅可以在不改变原始应用程序的情况下增强遗留代码,而且在与重新编译的操作系统或编程系统库配对时也能提高性能。
因此,PPU可以帮助各种应用程序中大幅提高速度,特别是那些显示并行性但受到传统基于线程的处理限制的应用程序。PPU 释放了这些应用的全部潜力,而在以前的架构终无法实现这样的性能显著提升。
3、参数化设计
可配置的参数化设计使PPU能够适应多种用途。一切都可以定制,以满足多个用例的特定要求。PPU 内核数支持4核、16核、64核、256核或更多功能单元(如 ALU、PPU、MU、GU 和 NU)的类型和数量。甚至片上存储器资源(缓存、缓冲区和暂存器)的大小也可以根据特定要求进行定制。性能的可扩展性与 PPU 内核的数量直接相关。
三、100倍的CPU性能提升是如何实现的?
那么,Flow公司是如何通过其PPU来实现对于CPU性能100倍提升的呢?据介绍,Flow解决了 CPU 面临的延迟、同步和虚拟级并行性方面的挑战,在这些技术中的创新和关键专利被实施到 PPU 中,它们将共同推动CPU实现 100 倍的性能提升。
1、延迟隐藏
当前冯·诺依曼架构的多核 CPU面临内存访问延迟问题,尤其是共享访问,对多核 CPU 来说是一个巨大的挑战。频繁的内存存取会减慢执行速度,核心间通信网络会导致额外的延迟。传统的缓存层次结构会导致一致性和可伸缩性问题。
Flow公司的PPU则是将内存引用的延迟,通过在访问内存时执行其他线程来进行隐藏。这没有一致性问题,因为没有缓存放置在网络的前面。可扩展性通过高带宽片上网络提供。
2、同步
当前多核 CPU使用并行性会带来额外的挑战。由于 CPU 处理器内核固有的异步性,每当存在线程间依赖关系时,就需要同步线程。这些同步代价很大,通常需要 100 到 1000 个时钟周期。
相比之下, PPU每个步骤只需要同步一次,因为线程在一个步骤中彼此独立,将开销成本降低到 1。同步与执行重叠,将开销成本降低到 1/100。
3、虚拟ILP/LLP
当前多核 CPU对低级并行性的次优处理。只有当指令是独立的时,才能在多个功能单元中执行多个指令。管道危险会减慢指令执行速度。
相比之下,PPU功能单元被组织为一个链,其中单元可以使用其前身的结果作为操作数。可以在执行的一个步骤内执行依赖代码,消除管道危险。
四、提升现有软件和应用程序的性能
Flow技术完全向后兼容所有现有的传统软件和应用程序。PPU 的编译器会自动识别代码的并行部分,并在 PPU 内核中执行这些部分。
此外,Flow 正在开发一种 AI 工具,以帮助应用程序和软件开发人员识别代码的并行部分,并提出简化这些部分以实现最大性能的方法。
小结:
虽然Flow表示其PPU能够为任何当前的冯·诺依曼架构的CPU带来最高100倍的性能提升,但是并未给出明确的指标数据来进行解释。只是说明了会从延迟、同步和虚拟ILP/LLP等方面进行入手来进行改进。并且正如其官网所介绍的,PPU还拥有4到256核的配置,需要配备多少核PPU才能带来100倍性能提升,Flow并未解释。另外,软件的重新编译也是实现 100 倍性能改进的必要条件。该公司表示,软件的重新编译可以使得现有代码的运行速度将提高 2 倍。
另外,PPU是并行处理单元,而GPU的优势也是在于并行计算。Flow甚至还表示,PPU消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。那么是否意味着,CPU+PPU的组合在某种程度上可以实现超越GPU的AI加速能力?
Flow还在一份常见问题解答文档中解释了其 PPU 与现代 GPU 之间的主要区别。“PPU 针对并行处理进行了优化,而 GPU 针对图形处理进行了优化。”这家初创公司对比称:“PPU 与 CPU 的集成度更高,你可以将其视为一种协处理器,而 GPU 是一个独立计算单元,与 CPU 的连接更为松散。”它还强调了 PPU 不需要单独内核及其可变并行宽度的重要性。
Flow表示,它将在今年下半年提供有关PPU的更多技术细节。至于Flow PPU的商业化进展,它提到了与 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 强调了其对 IP 许可模式的偏好,类似于Arm的授权模式,客户需要付费获取其PPU IP,以便嵌入到其CPU设计当中。
编辑:芯智讯-浪客剑
相关教程
2024-05-10
2023-07-28
2024-04-20
2024-08-24
2024-05-23
2024-11-17
2024-09-20
2024-11-16
2024-11-16
2024-11-15
2024-11-15
2024-11-15
2024-11-14