曾经统治手机 GPU IP 市场的 Imagination,历经变动之后,目前在移动 GPU IP 市场占有率有 36%,汽车 GPU IP 市占率 43%。近来,Imagination 近期发布的一系列新品不仅是其实力的展现,也足以让同行们增加对这位老对手的关注。

11 月 13 日,Imagination 发布了耗时两年研发的最新的第三代神经网络加速器(NNA)产品 IMG Series4,其全新的多核架构可提供 600 TOPS(每秒万亿次操作)甚至更高的超高性能,主要面向先进驾驶辅助系统(ADAS)和自动驾驶应用。以低功耗产品见长 Imagination 推出高性能的终极 AI 加速器,会给在自动驾驶汽车芯片市场占有领导地位的 Nvidia 多大的冲击?

耗时两年打造的终极 AI 加速器

Imagination 在 AI 火热的 2017 年推出首代神经网络加速器(NNA)PowerVR 2NX,单核性能从 1TOPS 到 4.1TOPS。紧接着,2018 年 PowerVR 3NX 发布,单核性能从 0.6TOPS 到 10TOPS,多核产品性能从 20TOPS 到 160TOPS。

性能增强的同时,Imagination 的 NNA 主要面向的市场也从 2NX 时的移动设备和汽车市场,进一步拓展到智能相机监控、消费电子(尤其是数字电视)、低功耗 IoT 智能设备领域。

时隔两年之后,Imagination 才推出第三代 NNA 产品 4NX。4NX 系列的单核性能进一步提升,每个单核能以不到 1 瓦的功耗提供 12.5TOPS 的性能。相比前两代 NNA,新一代产品强调的是全新多核架构,这个新的多核架构支持在多个内核之间对工作负载进行灵活的分配和同步,从而实现更高性能。

Imagination Technologies 产品管理部门总监 Gilberto Rodriguez 介绍,“我们的软件提供了精细的控制能力,并通过对多个工作负载进行批处理、拆分和调度而提高了灵活性,可以在任意数量的内核上使用。Series4 可为每个集群配置 2 个、4 个、6 个或者 8 个内核。1 个 8 内核的集群可以提供 100TOPS 的算力,配有 6 个 8 核集群的解决方案就可以提供 600 TOPS 的算力。”

据悉,在 AI 推理方面,Series4 NNA 的性能比嵌入式 GPU 快 20 倍以上,比嵌入式 CPU 快 1000 倍。

至于为什么要推出如此高性能的 AI 加速器,Gilberto Rodriguez 表示,“ADAS 和自动驾驶对芯片有很高的算力需求,比如 L2 + 的驾驶员检测或语音 / 手势控制需要 10TOPS 的性能,L3-L4 级别的自动驾驶有 50-100TOPS 的性能需求,L5 级别的自动驾驶性能需求超过 500TOPS。”“虽然市场上已经有满足自动驾驶需求的 AI 芯片,但功耗不够理想。所以,我们花两年时间去了解和评估客户需求,基于我们的前两代低功耗的产品,推出了高性能低功耗的 4NX 系列产品,并且将自动驾驶作为主打市场,也可以应用于数据中心和桌面级 GPU。” Imagination Technologies 视觉和人工智能部门高级总监 Andrew Grant 表示。

600TOPS 的高性能如何兼顾低功耗?

需要指出的是,4NX 系列的 8 内核集群要实现 100TOPS 的性能,超过 30 TOPS/Watt 的性能功耗比,以及超过 12 TOPS/mm^2 的性能密度是要在 5nm 节点实现。Gilberto Rodriguez 也提到,如果要用多个集群实现更高算力,Imagination 可以提供多集群的协同机制,但也需要客户在应用层进行一些设计。

多核灵活架构带来的可扩展性让 4NX 可以实现高性能,但对于高性能芯片而言,功耗的控制也非常关键,特别是 AI 芯片。AI 芯片需要处理大量的数据,并且数据的搬运耗费的功耗远大于数据处理,因此,高性能 AI 芯片必须想办法尽量减少数据的搬运,同时降低延迟和节省带宽。对于延迟的降低,Imagination 采用的方法是单核组成 2 核、4 核、6 核或 8 核的多核集群中,所有内核可以相互协作,并行处理一个任务,降低处理延迟,缩短响应时间。当然,集群中和多核既可以共同执行一个批处理任务,也可以分别运行各自不同的网络,也就是各个内核能够独立运行。核数的增加带来性能提升的同时降低延迟不同的核独立运行

4NX 更大的亮点在于其节省带宽的 Tensor Tiling( Imagination’s Tensor Tiling,ITT)技术,这是 Imagination 正在申请专利的技术,也是 4 系列中新增的功能。Tensor Tiling 技术利用本地数据的依赖性将中间数据保存在片上存储器中,最大限度地减少将数据传输至外部存储器,相比上代产品,将带宽降低多达 90%。

具体而言,神经网络的多层以融合内核的形式运行在加速器的硬件流水线里,融合内核之间的特征图(Feature Map)需要通过外部存储进行交换。Tiling 技术是充分利用紧耦合的 SRAM 来融合更多的层,更多的层被融合之后,就减少了需要通过外部存储交换的特征图,进而达到提升效率,节省带宽的目的。

还需要说明一下 Tensor Tiling 技术中的批处理和拆分,批处理是分配适合批处理的大量的小型网络任务到每个独立工作的 NNA 单核,能够提升并行处理能力。拆分则是任务在多个维度被拆分,所有 NNA 单核共同执行一个推理任务,减少网络推理延迟的同时,在理想情况下协同并行处理的吞吐量与独立并发处理的相同,非常适合网络层很大的网络。

当然,Tensor Tiling 的拆分是通过 Imagination 提供的编译器来完成,不需要开发者手动完成,并且利用 NNA 的性能分析工具能够对 AI 任务进行更好地调度和分配。

那 Tensor Tiling 在节省带宽的同时能否减少数据的搬移?Gilberto Rodriguez 对雷锋网 (公众号:雷锋网)表示,“答案是肯定的。一方面,Tensor Tiling 让待处理数据通过内存带宽的传输减少,另一方面,重复利用的神经网络权重给处理器核的传输次数也减少,这让就可以有效减少数据搬运。”

硬件上层的工具链方面,Imagination 的离线和在线工具组成的工作流程可以让开发者更快实现部署。

Nvidia 在自动驾驶领域将迎来新对手?

Nvidia 在 2015 年就推出了车载计算平台,此后持续迭代,目前在自动驾驶芯片市场已经处于优势地位。不过,擅长桌面级 GPU 的 Nvidia 能够提供高性能,但功耗可能对于电池供电的电动汽车不够友好。这也是在对功耗要求比较严格的移动端有优势的 Imagination 的机会所在。

与 Nvidia 有所不同,Imagination 是 IP 提供商,并不会直接提供芯片。因此,Imagination 可以与领先的汽车行业颠覆者、一级供应商、整车厂(OEM)和汽车系统级芯片(SoC)厂商合作,推出有竞争力的产品。为了帮助合作伙伴更好进入这一市场更快推出车规级产品,此次推出的 NX4 还包含 IP 级别的安全功能且设计流程符合 ISO 26262 标准。ISO 26262 是旨在解决汽车电子产品风险的行业安全标准。

新推出的 4 系列 NNA 可以在不影响性能的情况下,安全地进行神经网络推理。硬件安全机制可以保护编译后的网络、网络的执行和数据处理管道。

Andrew Grant 透露,已经开始提供授权,并将于 2020 年 12 月在市场上全面供应。授权的客户目前已经不止一家。

这就意味着,自动驾驶芯片市场将会迎来更多有竞争力的产品。雷锋网认为,Imagination 更强的 GPU 和 NNA 产品组合将会帮助更多想要进入这一市场的公司推出更有竞争力的产品。上个月,Imagination 发布了最新一代的 IMG B 系列高性能 GPU IP,这款多核架构 GPU IP 4 个系列内核有 33 种配置。

更通用的 GPU 和更专用的 AI 加速器,显然可以给高性能计算带来更多的选择。有意思的是,Nvidia 目前也拥有性能强劲的 GPU 和 AI 加速 Tensor Core 的组合。

ABI Research 预计,到 2027 年左右,对 ADAS 的需求将增长两倍,但汽车行业已然将目光投向了更远的全自动驾驶汽车和自动驾驶出租车,从 L2 和 L3 级 ADAS 向 L4 和 L5 级全自动驾驶演进的过程中,高性能、低延迟和高能效的结合将是关键所在。

巨大的市场机会之下,两家芯片产品优势类似的公司,会如何竞争?

关键词: Imagination AI 加速器 低功耗