2019年,人工智能是最受瞩目的领域,从医疗保健到招聘各个行业都在拥抱AI。纵观全球,尽管App和算法演进很快,但硬件和算力的结合却能使AI的落地场景演进成为可能。在AI市场,全球领先的企业英伟达,已经从游戏、超级计算机到神经网络的大型计算应用领域建立业界标准,过去的半年中,以寒武纪、HUAWEI、alibaba为代表中国军团对云端AI市场不断推出新品,对这个领域全球竞争秩序发起了冲击。
中国云端AI市场,三大厂商密集发布新品上市
2019年6月20日,寒武纪宣布推出第二代云端AI芯片思云270及板卡产品。处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍,达到128TOPS(INT8);同时兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS;支撑浮点运算和混合精度运算。
图:寒武纪思云270芯片。
图:寒武纪思云270芯片。
8月23日,HUAWEI正式发布算力最强的AI处理器Ascend910(昇腾910),同时推出了全场景AI计算框架MindSphore。实际测试结果表明,在算力方面,昇腾910完全达到了设计规格,即:半精度(FP16)算力达到256Tera-FLOPS,整数精度(INT8)算力达到512Tera-OPS;重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。
图:HUAWEI昇腾910现场展示。
图:HUAWEI昇腾910现场展示。
9月25日,在杭州云栖大会上,达摩院院长张建锋现场展示了阿里推出全球最强的AI芯片——含光800。这是一款云端神经网络处理器,主打推理,重点应用于视觉场景,在业界标准的ResNet-50测试中,含光800推理性能达到78563IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。
图:云栖大会上达摩院展台上展出的含光800NPU。
图:云栖大会上达摩院展台上展出的含光800NPU。
图:云栖大会上含光800NPU测试评估主动散热PCIe板卡。
云端AI芯片市场为什么这么热?
随着物联网技术的迅猛发展,全球联网设备数量呈现爆发式增长,联网设备的数量在2014年到2020年间的年复合增长率预计将达23.1%,到2020年物联网设备数量达到501亿。IDC预测2020年全球数据总量将突破40ZB,到2025年,全球联网设备一年产生的数据量达到79.4ZB。在阿里云栖大会上,alibaba董事长张勇提出的公开预测数据显示,到2025年,全球一年产生的数据将达175ZB,是IDC预测的两倍。
数据是数字经济时代的石油,算力是数字经济时代的发动机,把数据变成石油,其中AI芯片是关键。根据ABIResearch的第一份报告“云端AI芯片:市场前景和供应商定位”表示:云端AI推理和训练所产生的AI芯片市场,预计将从2019年的42亿美金增长到2024年的100亿美金。终端AI芯片市场也将近80亿美金。
与终端AI芯片相比,云端AI芯片通常具有更高的计算能力,更高的功耗,更大的物理占用面积,因此也相对更加昂贵。对于互联网和云服务商,其自身对于AI芯片需求越大,意味着需要付出的成本更为高昂,这也是alibaba、HUAWEI、AMAZON等企业纷纷自研芯片的初始原因。
三位中国挑战者的实力展示
到目前为止,云端AI市场一直由英伟达的GPU和英特尔的CPU主导,而现在的它们正面临着HabanaLabs、高通等企业的挑战。最近寒武纪、HUAWEI和alibaba新品的发布,也正是宣布进入这一高地。
行业权威人士指出,考虑到国内高端人工智能技术的匮乏,人工智能硬件在中国还处于新兴产业,市场潜力巨大,2019年,多家企业推出新品,很快与Nvidia展开激烈的竞争,是否能切分蛋糕,实力非常关键。
第一、在芯片性能方面,寒武纪“思元270”的性能参数有意向业界标杆英伟达TeslaT4看齐。“思元270”可支撑INT16/INT8/INT4等多种定点精度计算,INT16的峰值性能为64Tops(64万亿次运算),INT8为128Tops,INT4为256Tops。
对比TeslaT4,FP16的峰值性能为65Tops,INT8为130Tops,INT4为260Tops。
功耗方面,“思元270”功耗为75w,与TeslaT4持平。
寒武纪在训练领域的低精度整数运算实现了关键性突破,思元270训练版板卡将可通过8位或16位定点运算提供卓越的人工智能训练性能,该技术有望成为AI芯片发展的重要里程碑。
第二、HUAWEI轮值董事长徐直军对业界表示:昇腾910总体技术表现超出预期,作为算力最强AI处理器,当之无愧。大家已经把昇腾910用于实际AI训练任务。比如,在典型的ResNet50网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。
如同手机市场,HUAWEI在AI战略商摆出了挑战对手的姿态,手机市场上HUAWEI自有品牌手机加上自有麒麟芯片技术,把握住5G手机的领先优势,在AI市场,HUAWEI拿出昇腾910+MindSphere的硬件与架构服务组合,还有自主的训练架构以及整合能力。虽然这个组合在海外市场能否开展业务令人怀疑,但在价格和效能驱动夏,HUAWEI在AI市场更有竞争力,特别是智慧城市、自动驾驶车辆、物联网和之后会医疗等热门应用上,HUAWEI自有技术加上软硬整合,相信可以启动更大的市场。
第三、alibaba首席技术官张剑锋表示,含光800的云端推理能力出众。1个含光800算力等于10个普通GPU,在业界标准的ResNet-50测试中,峰值性能达到78563IPS,每秒处理7.8万张图片,是目前全球最高性能的AI推理芯片,每瓦可以处理500张照片。同样以推理能力来说,含光800的推理能力是英伟达T4(1721IPS)的五倍,是英伟达P4的46倍,能效比是第二名HabanaLabs的Goya的3.3倍,是寒武纪MLU270的3.5倍。
在现场演示中,杭州城市大脑实时处理主城区的交通视频,需要40颗传统的GPU,延时300ms,使用含光800仅需要4颗,延时减低到150ms。在拍立淘商品库每天新增的10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800可以缩短至5分钟。软硬件协同的极致设计体现了巨大市场前景。
结语
行业专家认为,人工智能将有可能得到规模化使用,大规模新技术会在未来二三十年取得突破。人工智能将给社会提供更多的效率,国家会因为人工智能发生翻天覆地的变化。
面对人工智能带来的改变,国家自身的发展会取决于这个国家的能力,取决于行业成熟性和算法、算力、基础设施的提供,比如超级计算机、超大规模的系统等一系列的支撑。作为中国本土云端AI芯片的主要供应商,寒武纪、HUAWEI和阿里平头哥,虽然现在比英伟达的实力还有差距,但在中国巨大的市场潜力和应用带动下,会有更多可能开发出先进产品,未来如何,让大家拭目以待。