华为技术

华为Atlas 900 AI集群超强算力解析

世界正从数字化向智能化转型，人工智能产业作为关键驱动力，面临自身的升级进化挑战。Atlas 900 AI集群，以领先的技术优势，打造领先的标杆指标，以超强算力带给企业人工智能业务的极致体验。

文/华为高级营销经理唐伟

在大型数据集上进行训练的神经网络架构涵盖从图像识别、自然语言处理、视频实时分析和智能推荐系统等各个方面，训练这些神经网络模型需要大量浮点计算能力。近年来单个AI处理器算力和训练方法上均取得了重大进步，但是在单一机器上，AI训练所需要的时间仍然长得不切实际，因此需要借助大规模分布式AI集群环境来提升神经网络训练系统的浮点计算能力。

在第四届华为全联接大会上发布的Atlas 900 AI集群由数千颗昇腾910 AI处理器互联构成，是当前全球最快的AI训练集群，代表了当今全球的算力巅峰。其总算力达到256P～1024P FLOPS @FP16，相当于50万台PC的计算能力。

用领先的技术练就标杆

AI算力业界领先

Atlas 900 AI集群采用业界单芯片算力最强的昇腾910 AI处理器，每颗昇腾910 AI处理器内置32个达芬奇AI Core，单芯片提供比业界高一倍的算力（256TFLOPS@FP16）。Atlas 900 AI集群将数千颗昇腾910 AI处理器互联，打造业界第一的算力集群。

昇腾910 AI处理器采用SoC设计，集成“AI算力、通用算力、高速大带宽I/O”，大幅度卸载Host CPU的数据预处理任务，充分提升训练效率。

最佳集群网络

Atlas 900 AI集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式，百TB全互联无阻塞专属参数同步网络，降低网络时延，梯度同步时延缩短10~70%。

在AI服务器内部，昇腾910 AI处理器之间通过HCCS高速总线互联；昇腾910 AI处理器和CPU之间以最新的PCIe 4.0（速率16Gbps）技术互联，其速率是业界主流采用的PCIe 3.0（8.0Gbps）技术的两倍，使得数据传输更加快速和高效。在集群层面，采用面向数据中心的CloudEngine 8800系列交换机，提供单端口100Gbps的交换速率，将集群内的所有AI服务器接入高速交换网络。

独创iLossless 智能无损交换算法，对集群内的网络流量进行实时的学习训练，实现网络0丢包与E2E μs级时延。

系统级调优

Atlas 900 AI集群通过华为集合通信库和作业调度平台，整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口，充分释放昇腾910 AI处理器的强大性能。

华为集合通信库提供训练网络所需的分布式并行库，通信库+网络拓扑+训练算法进行系统级调优，实现集群线性度>80%，极大提升了作业调度效率。

极致散热系统

传统数据中心多以风冷技术对设备进行散热，但在人工智能时代传统数据中心却面临非常大的挑战。高功耗器件比如CPU和AI芯片带来更大的热岛效应要求更高效的冷却方式。液冷技术可以满足数据中心高功率、高密部署、低PUE的超高需求。

Atlas 900 AI集群采用混合液冷方案，创新性设计业界最强柜级密闭绝热技术，支撑超过95%的液冷占比。单机柜支持高达50kW超高散热功耗，实现PUE低于1.1的极致数据中心能源效率。

另外，在空间节省方面，与8kW风冷机柜相比，节省机房79%的空间。极致的液冷散热技术满足了高功率、高密设备部署、低PUE的需求，极大地降低了客户的TCO。

华为已在华为云上部署了一个Atlas 900 AI集群，集群规模为1024颗昇腾910 AI处理器。基于当前最典型的ResNet-50 v1.5模型和“ ImageNet-1k数据集”，Atlas 900 AI集群只需59.8秒就可完成训练，排名全球第一。

“ImageNet-1k数据集”包含128万张图片，精度为75.9%，在同等精度下，其他两家业界主流厂家测试成绩分别是70.2s和76.8s，Atlas 900 AI集群比第2名快15%。

Atlas 900 AI集群适用场景

Atlas 900 AI集群主要为大型数据集神经网络训练提供超强算力，可广泛应用于科学研究与商业创新，让研究人员更快地进行图像、视频和语音等AI模型训练，让人类更高效地探索宇宙奥秘、预测天气、勘探石油和加速自动驾驶的商用进程。

Atlas 900 AI集群也可以提供云服务，以云的方式提供充裕的、经济的算力资源，简单易用、高效率、全流程的AI平台，为客户带来极致体验的“易获取、用得起、方便用”的普惠AI算力。

选择区域/语言

产品

联接

云与计算

服务

行业解决方案

热点话题

个人及家庭产品支持

华为云服务支持

企业业务支持

运营商网络支持

合作伙伴

培训与认证

云与计算开发者

终端开发者

关于华为

新闻与活动

发现华为

历史搜索

华为Atlas 900 AI集群超强算力解析

用领先的技术练就标杆

AI算力业界领先

最佳集群网络

系统级调优

极致散热系统

Atlas 900 AI集群适用场景

点击排行

憧憬6G，共同定义6G

迈向智能世界2030

5G时代十大应用场景白皮书

以“青海湖”之名，再造青海

从20天到2小时，南方电网深圳供电局巡检效率提升了80倍

“一平台双驱动”，共建昇腾产业新生态

选择区域/语言

联接

云与计算

历史搜索

华为Atlas 900 AI集群超强算力解析

微信扫一扫: 分享

网页链接已复制

用领先的技术练就标杆

AI算力业界领先

最佳集群网络

系统级调优

极致散热系统

Atlas 900 AI集群适用场景

微信扫一扫: 分享

网页链接已复制

点击排行

憧憬6G，共同定义6G

迈向智能世界2030

5G时代十大应用场景白皮书

以“青海湖”之名，再造青海

从20天到2小时，南方电网深圳供电局巡检效率提升了80倍

“一平台双驱动”，共建昇腾产业新生态

在线客服

个人及家庭产品

华为云服务

企业服务

运营商网络服务