随着机器学习、深度学习等 AI 技术日益广泛的应用,图片、视频、语音等非结构化数据的挖掘、识别、处理等,都对高效率、低延迟的实时计算提出了更高的要求。“异构计算”的作用日益凸显。
根据阿里云官方消息,1 月 21 日,阿里云发布异构计算解决方案,包括弹性 GPU 实力和 FPGA 解决方案,适合人工智能领域的应用。
其中,弹性 GPU 方案,适合视频、渲染和人工智能应用等场景,自 2016 年底开放邀测,可以提供 2048 到 8192 个并行处理核心,搭配 32GB 的 DDR5 显存,最高提供 15.08TFOPS 单精度和 1TFLOPS 双精度浮点性能,并支持多种开放的渲染与计算加速协议和软件框架。同时配备了实例存储功能,可以获得与 SSD 云盘相比十数倍性能提升的前提下,读写延迟可稳定在 200us 左右。官方同时表示,该产品支持包月、包年的预付费支付模式,同时也支持按小时付费的使用模型。根据阿里云提供的资料,2016 年下半年,Zerolight 基于云计算技术开发了实时汽车三维展示软件,软件性能提升 15~20%。
FPGA 解决方案方面,阿里云采用了多家 FPGA 方案。官方表示,以 Arria 10 FPGA 为例,可以做到单位能耗计算能力达 45 GFLOPS/W,深度学习每瓦性能是 Intel E5-2699 v3 CPU 的 4 倍。在语音识别的业务应用方面,单块 FPGA 的方案可以做到 64 个 2.5Ghz broadwell CPU 物理核的性能,但延迟只有 CPU 的一半。智能安防厂商瑞为技术就是其客户之一,官方称单台 FPGA 服务器一秒就能实现 3000 万次人脸比对,将 IPC 的接入能力提升 5 倍以上,且服务端建设费用大幅下降。
自智能移动终端兴起以来,包括嵌入式电子产品在内,都面临高性能与低功耗之间的矛盾。除了在二者之间找平衡,也使得异构计算成为新的趋势,让每一个任务匹配更合适的功能单元,降低晶体管的浪费,提升整体效率。而到了人工智能时代,不管是模型训练还是模型应用的过程中,都对算力有了更高的要求,GPU 的作用凸显,FPGA 也开始日益受到重视。阿里云这次发布的异构计算解决方案,也是选了这两个方向。
两个方案之中,FPGA 的解决方案或许更值得关注。2016 年, Ignite 大会上,微软 CEO Satya Nadella 就与 Catapult 项目的老大 Doug Burger 一起做了 FPGA 加速机器翻译的演示,当时的演示效果是每秒 1 Exa-op (10^18) 的机器翻译运算能力。而在此前,微软已经开始使用 FPGA 加速 Bing 搜索、 Azure 云计算了。
而在实际的应用端,已经抢下公有云云计算市场半壁江山的 AWS 也于2016 年发布了相关的产品,名为 F1,采用的是 FPGA PCIe Fabric SSD 结合的高计算方案。当时,F1 提供了不同价位的加速卡,最多的套件包含 8 个 FPGA 芯片(16nm Xilinx UltraScale Plus FPGA),其中每个 FPGA 有 250 万个逻辑单元和 6800 个 DSP 引擎,套件包括有 ECC 保护的 64GiB DDR4 内存和 PCIe X16 接口,同时为了方便使用,还会免费提供 FPGA 开发环境 AMI 及硬件开发包 HDK,开发者可以按小时付费,无限次烧写。
云 AI 正成为趋势,这套 FPGA 方案的推出,对于对算力要求高的 AI 行业来说,可以节省不少开发的时间与费用。对于那些本来数据就在云端的 AI 应用开发者来说,更是如此。