2020年10月,英伟达A100 在MLPerf基准测试中创下最新记录,目前已经可以在亚马逊云端进行访问。
亚马逊网络服务(AWS)在10年前的NVIDIA M2050中首次启动了GPU实例。十年过去了,英伟达现在正在为AWS提供硬件,为下一代开创性的创新提供动力,这是相当有历史意义的。
在今年的MLPerf中,A100在数据中心推断方面的表现超过cpu达237x。单个NVIDIA DGX A100系统(带有8个A100 gpu)在某些AI应用上可以提供与近1000台双插槽CPU服务器相同的性能。
英伟达负责加速计算的副总裁伊恩?巴克(Ian Buck)在公布基准业绩后表示:“每个行业都在寻求更好的方式,应用人工智能来提供新的服务,并扩大业务,我们正处于一个历史的转折点。”
企业可以在AWS的P4d实例中访问A100。英伟达声称,与默认的FP32精度相比,使用该实例训练机器学习模型的时间减少了3倍,使用TF32则减少了6倍。
每个P4d实例具有8个NVIDIA A100 gpu。如果需要更高的性能,客户可以使用AWS的EFA一次访问超过4,000个gpu。
AWS的EC2副总裁Dave Brown表示,
现在,随着EC2 UltraClusters P4d实例由NVIDIA的最新A100 gpu和petabit-scale网络,我们supercomputing-class性能几乎人人皆可,同时减少的时间训练机器学习模型3 x,和降低训练成本60%相比上一代的实例。”
P4d支持400Gbps网络,利用NVIDIA的NVLink、NVSwitch、NCCL和GPUDirect RDMA等技术,进一步加速深度学习训练工作负载。
一些来自不同行业的AWS客户已经开始探索P4d实例如何帮助他们的业务。
GE医疗集团人工智能部门副总裁兼总经理Karley Yoder评论道:
使用新的P4d实例将处理时间从几天减少到几个小时。我们看到在不同图像尺寸的训练模型上有两到三倍的速度,同时通过增加批量大小实现更好的性能,通过更快的模型开发周期实现更高的生产率。”
举一个不同行业的例子,丰田的研究部门正在探索P4d如何改进他们在开发自动驾驶汽车和突破性的新机器人方面的现有工作。
丰田研究院(Toyota Research Institute)基础设施工程技术主管迈克?加里森(Mike Garrison)解释说:
P4d实例目前在美国东部(北弗吉尼亚)和美国西部(俄勒冈)地区可用。AWS表示,计划很快推出进一步的服务。