本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策

CloudEngine 16800:网络新引擎,AI赢未来

CloudEngine 16800搭载了高性能AI芯片,具备业界最大交换容量,将真正实现云时代到AI时代数据中心交换机的代际切换,引领数据中心迈入AI时代,助力客户赢得AI新未来。

文/王雷,华为数据中心网络领域总经理
Cloud Engine

在这个伟大的时代,科技正迅速地改变世界,眼下,我们看到的未来是什么?毫无疑问,这个关键词是AI。但是,我们又该如何触及自己想象的AI,这段距离是需要用技术创新弥补的鸿沟。华为已经发布人工智能发展战略,致力于将全栈AI技术引入全场景,促进产业发展和社会进步。作为AI发展战略的一部分,华为选择将人工智能技术注入到网络产品和解决方案中,开创全新的未来。

2012年8月8日,面向云计算时代,华为发布的CloudEngine 12800数据中心交换机,引领了高密100G平台数据中心交换机的设计和技术创新潮流,并以82%的复合增长率连续六年增速全球第一。

2019年1月9日,面向人工智能时代,华为定义了数据中心交换机的三大特征:内嵌AI芯片、单槽48 x 400GE高密端口以及向自动驾驶网络演进的能力。同时,华为发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800,将再一次为业界树立新标杆。

数据中心面临AI挑战

以人工智能为引擎的第四次技术革命正将我们带入一个万物感知、万物互联、万物智能的全新纪元。根据华为GIV(Global Industry Vision)的预测,到2025年,全球新增数据量将达到180ZB,95%的非结构化数据(语音/视频等)依赖AI处理,企业对AI的采用率将达到86%,越来越多的企业将利用AI助力决策、重塑商业模式与生态系统、重建客户体验,因此数据中心从云时代向AI时代演进成为必然。然而,现有的数据中心却面临三大挑战:

传统以太网丢包率0.1%,AI算力只能发挥50%:为了提升AI运行效率,存储介质演进到闪存盘,时延降低了不止100倍,计算领域通过采用GPU甚至专用的AI芯片,将处理数据的能力提升了100倍以上,这时网络通信时延反而成为关键短板。AI算力受到数据中心网络性能的影响,正在成为AI商用进程的关键瓶颈,高性能数据中心集群对网络丢包异常敏感,当传统以太网络有0.1%的丢包,就会导致AI算力只能发挥50%。

现有100GE网络无法支撑未来5年的数字洪流:预计全球年新增数据量将从2018年的10ZB猛增到2025年180ZB,现有100GE为主的数据中心网络已无法支撑数据洪水的泛滥。企业AI等新型业务驱动了数据中心服务器从10G到25G甚至100G的切换,这就必然要求交换机支持400G接口。

计算存储网络深度融合,人工定位网络问题需数小时:近几年,数据中心架构已经发生了巨大的变化,服务器规模由几十台扩大至上万台,同时计算网络、存储网络和数据网络逐渐融合,分析的流量成千倍地增长,业务一旦发生故障,靠传统人工排查的运维手段定位故障需要数个小时,已难以为继。

AI时代数据中心交换机的三大特征

quote

为应对上述挑战,华为认为数据中心需要一个自动驾驶的高性能网络来提升AI算力,帮助客户加速AI业务的运行。因此,华为定义了AI时代数据中心交换机的三大特征:内嵌AI芯片、单槽48 x 400GE高密端口、能够向自动驾驶网络演进。

业界首款内嵌AI芯片数据中心交换机,100%发挥AI算力

CloudEngine 16800是业界首款搭载了高性能AI芯片的数据中心交换机,承载独创的iLossLess智能无损交换算法,实现流量模型自适应自优化,从而在零丢包基础上获得更低时延和更高吞吐的网络性能,克服传统以太网丢包导致的算力损失,将AI算力从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。

业界最高密度单槽位48 x 400GE,满足AI时代流量增长需求

quote

CloudEngine 16800全面升级了硬件交换平台,在正交架构基础上,突破超高速信号传输、超强散热、高效供电等多项技术难题,使得单槽位可提供业界最高密度48端口400GE线卡,整机提供业界最大的768端口400GE交换容量,交换能力高达业界平均值的5倍,满足AI时代流量倍增需求。同时,单比特功耗下降50%,更绿色节能。

使能自动驾驶网络,秒级故障识别、分钟级故障自动定位

CloudEngine 16800基于内置的AI芯片,可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力;通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,使能自动驾驶网络加速到来。同时,基于iNetOps智能运维算法,华为提供了超过72类典型故障秒级根因分析的能力,使故障自动定位率达到90%。同时,该分布式AI运维架构还可大幅提升运维系统的灵活性和可部署性。

全面升级的硬件交换平台源于三大技术突破

CloudEngine 16800能够支持高密10GE→40GE→100GE→400GE端口甚至未来800GE等更高速率的平滑演进能力,极大地减少核心层设备的数量,简化网络,提升管理效率,这得益于华为持续的研发投入和深厚的技术积累。

总体而言,CloudEngine 16800在如下三方面取得了革命性的技术突破:

SuperFast超高速互联

从100GE到高密400GE,首先考验的是交换机内信号高速传输能力,而信号的频率每翻一倍,PCB线路板信号衰减就会增大20%以上,传统的电路板由于采用普通铜箔材料及制造工艺等问题,在信号传输频率提升的时候,损耗和高频干扰非常严重,成为交换机交换容量提升的关键瓶颈。华为采用新型亚微米无损材料及高分子键合技术的制作工艺,将电信号的传输效率提升30%,满足100GE到400GE及更高端口速率的全生命周期兼容和演进。

SuperPower高效供电

按照传统的设计方案,像CloudEngine 16800这样的高密400GE接口核心交换机需要40个电源模块,如此一来仅电源所占的空间就超过整机框的1/3。

华为创新地开发出业界首个独立双路输入和智能切换的电源模块,采用磁吹灭弧和大励磁技术实现ms级快速切换,保障了高可靠性。因而,21个新电源模块就可以实现原来40个传统单输入电源模块所达到的供电能力和可靠性,电源空间节省50%。线路板上采用矩阵磁和高频磁技术,实现在两个拇指大小的空间内提供1600W供电能力,使得单位空间的供电效率提升90%。

SuperCooling超强散热

如此超高密度的交换机,散热是整机工程能力的一个重要体现,CloudEngine 16800散热系统包括单板级和整机系统级两方面,真正做到了绿色节能。

单板散热方面,芯片会产生热量,如何将这些热量均匀导出单板并散发出去是散热设计的关键,CloudEngine 16800采用独有的碳纳米导热垫和VC相变散热技术,散热效率较业界提升4倍,整机可靠性提升20%。

整机散热方面,华为采用了业界首创的混流风扇,使整机散热效率达到最佳,与业界相比,平均每比特数据的功耗降低50%,相当于每台每年节省32万度电,减少碳排放250余吨。独有的磁导率马达和静音导流环,可降低噪音6dB,让数据中心更安静。

“预测未来的最好方式是创造未来”。CloudEngine 16800搭载了高性能AI芯片,具备业界最大交换容量,将真正实现云时代到AI时代数据中心交换机的代际切换,引领数据中心迈入AI时代,助力客户赢得AI新未来。