高通公司Cloud AI 100正在采样,75W时高达400TOP

9月16日,高通公司在去年宣布的“ Cloud AI 100”推理芯片和平台上揭示了更多信息。据称,该公司的新推理平台已经投入生产,第一批硅片已成功返还,第一批客户样品已经开始。#高通#

Cloud AI 100是高通公司首次涉足数据中心AI推理加速器业务,代表了公司对机器学习的投资,并利用了他们在消费移动SoC世界中的专业知识,并将其推向企业市场。高通公司于去年初首次发布了Cloud AI 100,尽管可以肯定的是,这更多是一次纸面发布,而不是透露硬件实际带来了什么。

如今,随着实验室中实际硅芯片的推出,高通公司将提供有关推理设计的架构,性能和功耗目标的更多细节。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

高通从高层次入手,展示了Cloud AI 100芯片旨在通过其各种外形尺寸部署实现的各种性能指标。

高通在解决方案的商业化方面瞄准了三种不同的外形尺寸:成熟的PCIe外形尺寸加速卡,旨在在75W TDP上实现高达400TOP的惊人推理性能,以及两个DM.2和DM. 2e规格卡,分别具有25W和15W TDP。DM2的外形类似于两个彼此相邻的M.2连接器,并在企业市场上广受欢迎,其中DM.2e设计代表了一种更小,功耗更低的热封壳外形。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

高通公司解释说,从架构的角度来看,该设计遵循了该公司在移动Snapdragon SoC中部署的神经处理单元的经验教训,但是仍然是一种完全针对企业工作负载进行了优化设计的独特架构。

与当前的通用计算硬件(例如CPU甚至FPGA或GPU)相比,专用AI设计的最大优势在于,专用的专用硬件能够实现更高的性能和更高的能效目标,否则这些目标将无法实现“传统”平台。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

就性能数据而言,高通公司针对当前最常用的行业解决方案,包括英特尔的Goya推理加速器或英伟达的针对目标的T4加速器(基于缩减的TU104 GPU芯片),提供了每瓦每秒ResNet-50推理的数据。

据说Cloud AI 100在性能/ W方面比其竞争产品实现了重大飞跃,但必须指出,该图表确实混合了很多外形尺寸,功率目标以及绝对性能目标,不是苹果之间的比较。

就性能数据而言,高通公司针对当前最常用的行业解决方案,包括英特尔的Goya推理加速器或Nvidia的针对目标的T4加速器(基于缩减的TU104 GPU芯片),提供了每瓦每秒ResNet-50推理的数据。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

高通公司在另一个性能/功率图表中展示了一个相对公平的比较。性能方面最有趣的说法是,在75W PCIe外形尺寸内,该公司声称它甚至可以击败英伟达基于最新Ampere架构的最新250W A100加速器。同样,它声称在功耗降低25%的情况下将Goya加速器的性能提高了一倍。

这些性能要求令人难以置信,并且可以通过以下事实来解释:此处测试的工作负载使高通的体系结构处于最佳状态。

该芯片由16个“ AI内核”或AIC组成,共同实现了多达400TOP的INT8推理MAC吞吐量。该芯片的内存子系统由4个以2100MHz(LPDDR4X-4200)运行的64位LPDDR4X内存控制器作为后盾,每个控制器都运行4个16位通道,这些通道的总系统带宽为134GB / s。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

对于那些熟悉当前AI加速器设计的人来说,与竞争性设计能力(例如A100或Goya加速器)相比,该带宽数字听起来极度贫乏,后者具有HBM2内存和高达1-1.6TB / s的带宽能力。高通公司为平衡这一点所做的就是采用一块144MB的片上SRAM高速缓存,以在片上保留尽可能多的存储器流量。

高通公司承认,在内核超过片上内存占用空间的工作负载下,该架构的性能将有所不同,但这是该公司同意与具有特定目标工作负载需求的客户达成的有意设计平衡。高通公司预计,对于更大的内核,工作负载将在多个Cloud AI 100加速器之间横向扩展。

因此,尽管高通公司在这些特定的ResNet-50上的性能指标看起来很棒,但它可能无法涵盖更广泛的工作负载的整体情况。当被问及何时应该期待更广泛的基准测试结果时,团队确实说他们内部有一些子测试,但是当前的短期软件工程资源专注于满足客户需求并优化这些工作负载。随着时间的推移,我们将看到更广泛的软件支持和最终的MLPerf性能指标。

当被问及公司如何通过单芯片设计在功率目标方面实现如此宽的动态范围(15W至75W)时,该公司解释说,他们正在调整频率/电压曲线以及调制有源AI的数量。完整的400TOPS 75W设计包含一个工作频率较高的芯片,而15W设计可能禁用了设备并以较低的频率运行。7nm工艺节点还极大地有助于降低功耗。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

PCIe接口支持8通道的最新4.0标准。

在精度方面,该体系结构支持INT8,INT16以及FP16和FP32精度,这在所支持的型号方面应具有足够的灵活性。

高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM高通公司Cloud AI 100正在采样,75W时高达400TOP休闲区蓝鸢梦想 - Www.slyday.coM

高通公司目前正在向客户提供Cloud AI 100样本,其目标部署主要是工业和商业中的边缘推理工作负载。为了启动生态系统并支持软件开发,高通公司还推出了新的Cloud Edge AI 100开发套件,该套件包括一个集成有Cloud AI 100加速器的小型集成计算设备,Snapdragon 865系统SoC和一个X55 5G调制解调器,用于蜂窝连接。

预计将于2021年上半年向客户进行商业发货。

相关推荐

  • 友情链接:
  • PHPCMSX
  • 智慧景区
  • 微信扫一扫

    微信扫一扫
    返回顶部

    显示

    忘记密码?

    显示

    显示

    获取验证码

    Close