iCooling@AI推动数据中心制冷走向“智冷”
华为采用AI技术优化数据中心制冷系统,最终提升数据中心能效。
本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策
如何降低数据中心能耗是业界普遍面临的一大挑战。PUE是考察数据中心能效关键指标,已经成为衡量数据中心能效的KPI。由于制冷与设备散热、设备配置、机房环境、大气条件等密切相关,因此单纯凭借硬件节能或基于人工经验进行简单调优,已无法满足进一步降低能耗的需求。
华为基于丰富的数据中心建设经验,利用大数据和AI,推出的iCooling@AI解决方案,在推动大型数据中心的制冷走向“智冷”,降低PUE的同时,可实现数据中心能耗的进一步优化。
数据中心冷冻水制冷系统的节能可分为设计节能和运维节能两种模式。
设计节能主要是通过制冷系统方案设计和设备选型来实现,更多体现在通过硬件来节能。但是,有了高能效的硬件,并不代表就能发挥出最优的节能效果,其节能效果的优劣还与数据中心的运维水平息息相关。
而传统的运维节能往往依赖于一个有经验的运维团队,他们会根据多年的运维经验,判断出在不同的季节、不同的环境温度和不同的负载率下,如何调节整个制冷系统的运行参数,尽可能地实现制冷系统能效的最大化。但运维团队的经验是在实践中摸索出来的,不但可遇不可求,同时也难以精准把控。
因此,针对复杂的冷冻水制冷系统,需要找到一种新的控制算法,以达到整体最优的效果,而大数据、AI则是能效优化的一个探索方向。利用AI技术找出PUE与各类特征数据的关系并输出预测的PUE值,可指导数据中心根据当前气象及负载工况,按照预期进行对应的优化控制,最终达成节能目标。
华为iCooling@AI解决方案基于AI和大数据技术,实现了数据中心制冷系统的智能化,所采用的关键技术包括:
大数据采集:考虑到数据中心制冷系统的复杂性,需要对供电系统、制冷系统、环境参数等进行采集。
数据治理及特征工程:首先,利用数学工具对采集到的原始数据进行数据治理,为后续的模型训练提供优质的数据基础。特征工程的目的是从海量的原始数据中找出影响PUE的关键参数。如果选择的参数过多或过少,都会影响最终模型的精度。如果找出的参数过多,会导致过拟合,最终训练好的模型在训练数据上能够获得比测试数据更好的拟合,但泛化能力差;如果找出的参数过少,会导致欠拟合,训练好的模型在训练集表现差,在测试集中同样表现很差。
通过神经网络建立能效模型:神经网络是机器学习算法之一,其可模拟神经元之间相互作用的认知行为。针对数据中心制冷效率提升遇到的瓶颈,采用深度神经网络,利用机器学习算法可以找到不同设备、不同系统之间参数的关联关系,利用现有的大量传感器数据来建立一个数学模型。这个模型就是数据中心的能效模型。
利用遗传算法进行推理决策:遗传算法又称贪婪算法(或贪心算法)。利用输入的能效模型和实时采集的运行数据,通过以下四步,最终找出最佳的运行策略,即参数遍历组合、业务规则保障、制冷能耗计算及最优策略选择。
大数据与AI的结合,软件与硬件的协同,为华为树立绿色数据中心新标杆提供了有力的支撑。
其中,软件基础包括群控系统和DCIM(数据中心基础设施管理)系统。数据中心的群控系统采用多PLC(可编程逻辑控制器)或DDC(直接数字控制),主备双服务器,具备普通控制模式和节能模式。
普通控制模式:群控系统自动执行所有控制逻辑,包括设备加减、转速调节、制冷模式切换、旁通、充放冷等,由DCIM进行状态信息监控。
节能控制模式:群控系统接受节能算法,下发指令如指令包设备数量、转速/功率/温度/压差等控制环路目标值、制冷模式切换、充放冷控制等完成指定动作。群控系统根据节能算法下发的指令进行动作,未下发控制指令的仍由群控系统自行控制。
DCIM作为整个数据中心的集中管理系统,可对制冷系统全链路进行集中管理。节能优化指令由AI算法得出后,下发到群控系统,由群控系统负责最终执行。
而硬件基础则包括各类传感器,如智能电表、压力/压差传感器、水温传感器、流量传感器、室外干球/湿球温度传感器等。
为保证最佳的优化效果,冷水机组、水泵、末端空调、冷却塔等建议采用变频部件。整个制冷系统可接受自动控制。
为了保证高质量的数据采集,数据采集周期为5分钟/次,采集点的数量可根据数据中心规模来确定。首次采集需记录下不低于3个月的运行数据。后续可设置定期上传,上传周期为1次/天。数据的上传通路包括两条:冷冻站数据通过BMS系统上传到DCIM;IT负载等数据通过机柜信息采集系统上传至DCIM。
高效的数据治理包括:利用高斯分布,对异常数据进行识别和删除;统一所有参数的时间轴;地理位置归一;剔除与能效无关的数据(告警信息、维护信息等);参考数据中心运维经验、冷水机组等设备运行参数对空白数据进行补齐。
为了高效完成后续模型训练,可利用卡方检验等数学工具,找出影响能效的关键参数。数据中心常见的参数包括5类控制参数(如设备数量、冷水机组供水温度、冷冻水供回水温差、冷却塔逼近度、冷却水供回水温差等)、14类过程参数(如水流量、压差、设备功耗等),以及2类环境参数(室外温湿度、IT负载率等)。
数据中心运维中最大的难点在于当调整了其中一个参数时,系统中的其它参数将做出如何改变,又应该如何配合。在目前的运维体系中没有现成的公式或算法可参考。
通过使用海量的历史数据来训练AI神经网络,让AI通过机器学习算法,分析PUE与数据中心内具体组件生成的数据之间的联系,以发现不同设备与不同系统参数对系统整体的影响,这其中动态模型训练、推理与决策是关键。
神经网络拥有输入层、输出层以及多个隐含层,输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。AI能效优化采用深度神经网络,包含5个隐含层。神经网络的基本模型如下:
所有经过治理和特征工程的数据被随机分为三份,其中10%的数据用于初步训练,80%的数据用于深度训练,10%的数据用于最终校验。经过训练和校验,则可以得出数据中心PUE模型。
最后,将预测模型(PUE模型)下发到推理平台。利用推理平台强大的推理和计算能力,用遗传算法对可能的制冷策略进行遍历和模拟。在1分钟内,AI节能算法可以从140万种组合中找出在当前室外环境和IT负载下的最优参数组合,并能根据数据中心的运维要求进行多层过滤,最后得出最佳的指令,下发执行并反馈效果。
目前iCooling@AI技术已经在多个大型数据中心规模商用,实现了数据中心制冷智能化。实测可有效降低数据中心PUE约8%-15%,达成了节能降耗的绿色目标。相信随着iCooling@AI方案以及一系列AI技术在数据中心运营和管理中的作用越来越广泛,“智能运维”、“无人值守”等概念不再只是被反复提及的“热词”。