华为OceanStor Dorado:“剑鱼”出世记
作为一款由华为存储全球研发团队历时近三年打造的高端存储产品,OceanStor Dorado拥有业界最高的2000万IOPS极致性能,业界最低0.1ms的稳定时延,其开创性的SmartMatrix架构让高端存储稳定性和可靠性再次迈上一个新台阶,融入AI芯片则让OceanStor Dorado引领高端存储智能化的发展趋势。
本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策
作为一款由华为存储全球研发团队历时近三年打造的高端存储产品,OceanStor Dorado拥有业界最高的2000万IOPS极致性能,业界最低0.1ms的稳定时延,其开创性的SmartMatrix架构让高端存储稳定性和可靠性再次迈上一个新台阶,融入AI芯片则让OceanStor Dorado引领高端存储智能化的发展趋势。
2017年初,首都机场外寒风凛冽,华为OceanStor Dorado首席架构师张鹏即将只身一人奔赴海外。
此刻,他难掩激动之情,OceanStor Dorado全闪存项目的正式通过让他无比兴奋;而兴奋之余,张鹏内心还有一丝忐忑,因为他的团队肩负着华为向高端存储这颗存储皇冠上的明珠发起冲锋的重任。
2019年7月,华为正式对外推出了其全新一代OceanStor Dorado全闪存存储。作为一款由华为存储全球研发团队历时近三年打造的高端存储产品,OceanStor Dorado拥有业界最高的2000万IOPS极致性能,业界最低0.1ms的稳定时延,其开创性的SmartMatrix架构让高端存储稳定性和可靠性再次迈上一个新台阶,融入AI芯片则让OceanStor Dorado引领高端存储智能化的发展趋势。
回顾过去两年多的种种,张鹏感慨道:“OceanStor Dorado实现了很多开创性的东西,这在业界非常难得,也是我倍感欣慰的地方。”
闪存可谓是存储近年来最大的技术创新领域。其中,全闪存存储则代表着市场发展的重要方向。尤其是随着近年来闪存成本的不断降低,以及容量的不断攀升,闪存取代传统机械硬盘的拐点已经到来,全闪存存储已经成为市场竞争的制高点。
“华为在全闪存存储领域已经有了十余年的积累。早在2009年,华为就是业界最早推出全闪存阵列的厂商之一。”张鹏表示道,“经过十年的积累和磨炼,我们希望抓住当前市场中出现的前所未有的机会。”
所谓前所未有的机会,即全闪存存储开始进入全面普及期,机械硬盘将加速退出存储系统,而市场上基于传统存储架构的全闪存存储产品则为市场留出了巨大的创新空间。张鹏认为:“在市场和技术变革之际,率先具有突破性的产品,那将奠定业界的绝对竞争力。”
正因为如此,华为存储希望在OceanStor Dorado这一代产品上实现质的突破,在高端存储市场中奠定自己坚实的基础。在张鹏看来,十年磨一剑是一个不断积累的过程,需要持续吸纳更多业界顶尖人才加入。“几年前,去海外为OceanStor Dorado组建海外研发团队,人生地不熟,刚开始真是比较抓瞎。”不过,张鹏并没有轻言放弃,逐个打电话与业界顶尖人才建立联系、保持沟通,并逐渐获得信任。
“华为存储近年来成长迅速,但在当时要说服顶尖存储人才加入依然是一件较为困难的事情。不过,华为存储提供的舞台以及希望干的事情,还是吸引了业界顶尖人才加入。”
多年以来,高端存储市场长期被三大国际巨头所持有,高端存储极高的技术门槛一方面让竞争对手望而却步,另一方面也在某种程度束缚了自身产品的创新与变革。“华为存储想实现的事情,恰是这些人才所希望实现的梦想。可以说,OceanStor Dorado是一款凝聚了全球最顶尖存储人才智慧的产品,具有极高的开创性。”
在传统机械盘时代,高端存储的架构一直相对稳定,以Scale-Up纵向扩展为主。但是,随着近年来数据量的飞速增长,以及业务应用对于性能的渴望,使得Scale-Out横向扩展的高端存储产品开始流行起来。不过,Scale-Out架构虽然有利于扩展,也失去了纵向架构在性能和效率上的传统优势。
如何突破传统架构的束缚,就成为摆在华为存储团队面前最大的挑战。为此,在OceanStor Dorado项目开始之际,华为存储团队就确定了攻克方向:将Scale-Up和Scale-Out进行融合,设计出一种兼具两者优势的全新架构,这个目标激发了团队成员巨大动力。
“我们海外研发团队有一些成员来自市场上成名已久的公司,他们对于新架构设计的挑战可谓是动力十足。”众所周知,高端存储架构这些年裹足不前,很大程度在于历史包袱过重,创新成本和风险过高。“事实证明,海外团队一些成员在产品架构设计上发挥了重要作用,他们多年的创新想法在这一代产品上得以实现。”
在架构设计稳步推进的过程中,华为存储团队又遇到了一系列巨大的挑战。由于架构是全新设计的,目前市场中的很多组件产品并不能满足具体设计要求。“像接口卡这类组件,当我们向供应商提出具体产品要求之后,供应商尝试后就选择了放弃,因为实在是太难啦。”类似这样的情况出现多次,这让华为存储研发团队陷入了迷茫之中,研发进度也陷入停滞阶段。
“为什么不试试海思?”此时,有人提出了采用海思芯片的想法。
华为海思芯片在几年前就已经进入到华为存储的中低端产品之中,并且发挥了重要作用。但海思芯片能扛得住高端存储系统苛刻的要求么?华为存储团队经过连续多日的讨论之后,决定另辟蹊径,将海思系列芯片纳入架构设计之中,去寻求架构的彻底突破。
海思系列芯片在OceanStor Dorado架构中的验证和测试又是一项时间紧、任务重的工作。由于涉及到包括控制器处理芯片、SSD控制芯片、AI芯片、协议处理芯片等五款芯片在OceanStor Dorado架构中的稳定运行,华为存储研发团队需要时刻与海思芯片团队紧密沟通各项需求,以完成芯片在架构中的适配。“团队中有一位同事,他这两年多来只专注做一件事情,就是专门与海思芯片团队沟通具体的需求,从论证、测试、适配、调优,到之后的稳定运行,这位同事发挥了重要的作用。”张鹏介绍到。
至此,经过华为团队的不懈努力,OceanStor Dorado的SmartMatrix架构,得以最终实现了高端存储开创性的计算和存储分离、前后端全互联架构,将计算型的存储控制器引擎和存储型的硬盘框完全分离,二者可以进行独立升级和扩展,这种设计架构具备良好的延续性和灵活性,可以很好地保护用户投资;此外,OceanStor Dorado实现了单系统最高可扩展到32控制器,控制器可以实现8坏7,实现了高达99.9999%的高可用性。
回顾整个架构从设计到实现的过程,张鹏感叹道:“正所谓是好事多磨。如果按照过去思路和友商的芯片产品,我们可以施展的事情就会被束缚住,这样研发出来的产品不会具有绝对竞争力,OceanStor Dorado的架构虽然经历了波折与坎坷,但是以当前数据增长和业务变化趋势来看,高端存储的架构必然需要变化,OceanStor Dorado率先走出了一条具有开创性的路,在市场中无疑是具有领先性的。”
华为OceanStor Dorado全闪存存储最高可达到2000万IOPS的性能,并且可以实现0.1ms的稳定时延。IOPS越高,意味着性能越强;而时延越低,则意味着性能越稳定。稳定和时延是一个螺旋上升的过程,中间需要反复地打磨与优化。
尤其是在架构设计获得稳步进展时,研发团队也开始对软件层面进行了优化,由于采用了鲲鹏920处理芯片,每个CPU都有48个核心,需要在软件架构层面对多CPU多核、高速网络进行优化。“最开始是为了实现2000万IOPS的性能。当实现之后,因为系统存在各种潜在的中断因素,使得IO经常会被打断,需要逐个梳理出其中的原因,并且进行修改和测试,这是个反复优化的过程。”张鹏介绍到。
“由于存储系统的处理器主要是做数据相关的处理,所以像鲲鹏920这样的多核ARM处理器反而更具优势,它可以专门划出资源来做像重删和压缩这些数据处理工作,而像通用X86处理器更加擅长的是运算类应用。”OceanStor Dorado同时打开重删和压缩这些功能,其性能可以超越同等高端存储产品50%。
在性能提升过程中,客户也发挥了意想不到的作用。“有时候,客户其实是最好的产品经理。OceanStor Dorado的出色和稳定的性能表现,离不开用户宝贵的建议。”张鹏感慨道。
一次恰逢欧洲某银行客户来华为拜访,张鹏团队向该客户展示了OceanStor Dorado样机,并演示了各项强大的存储功能。“当时向客户展示的时候,非常高兴,甚至有一点洋洋得意。”当展示结束之后,客户也被OceanStor Dorado的产品设计和强大功能所折服,不过客户也提出,如何解决万分之一概率的IO时延偏大问题,这是一直期待能够解决的难题。
张鹏直言,该客户所提出的建议促使了内部进行了激烈的讨论。有人认为解决这个小概率IO时延偏大问题,需要对之前原有系统设计进行改动,这将花费巨大的精力和投入。但是,经过多次讨论和研究之后,团队还是下定决心解决潜在小概率IO时延偏大问题。张鹏表示:“解决这种长尾IO时延偏大的问题,的确会对原有设计产生一些冲击,需要进行任务的隔离和分开,会涉及到硬件、软件等多个层面。”
最终,华为存储团队经过多次的讨论和测试,重新对系统设计进行了修改,并且在硬件驱动、操作系统、软件等层面进行了反复地打磨与改进,长尾IO时延偏大的问题得以完美解决,OceanStor Dorado得以实现0.1ms的稳定时延。
高端存储之所以被誉为存储皇冠上的明珠,在于其拥有出色性能之外,也具备了极致的可靠性和稳定性。这些特性使得高端存储在众多行业中承载最为核心的关键业务。
“最近几年与客户频繁接触,明显感觉到客户业务对于可靠性需求的提升。”张鹏介绍到,近年来华为存储团队经过与大量不同行业的用户接触,普遍对数据中心设备的多点故障感到焦虑,“随着数字化的步伐较快,很多用户的数据中心规模越来越大,设备也越来越多,多点故障成为用户未来不可逃避的挑战。”华为OceanStor Dorado在可靠性和稳定性上,可谓是下足了功夫,从部件级、产品级、方案级和云级四个层面打造出端到端的可靠性架构,可以承载全整合场景所需,保障业务高达99.9999%的高可用性,为高端存储的可靠性树立了新标杆。
首先,华为在OceanStor Dorado的闪存盘上采用全局磨损均衡技术,将业务负载均衡到所有SSD上,并且采用华为专利的反磨损均衡技术,避免多盘集体失效,在部件级构建了极高的可靠性;此外,OceanStor Dorado的SmartMatrix架构采用前后端全联接设计和智能多协议接口芯片,采用全对称的A-A控制器设计,LUN可以通过任意一个控制器访问应用服务器,当控制器故障出现之后,一秒就完成故障控制器的正常切换,并且可以实现控制器8坏7的极端情况。
张鹏直言:“数据中心规模变大和设备增多,客户潜在的误操作,以及内部软件升级等是造成多点故障的主要原因。像很多行业用户数据中心的软件极为复杂,软件失效率根本就算不出来,这不是物理失效,而需要做软硬件的隔离,保障软件的快速恢复。可以说,那些用双控节点去堆叠出来的高端存储产品,很容易出现规模越大、风险越高的情况。”
此外,在华为存储团队的努力下,OceanStor Dorado采用了备份容灾一体化设计,具备免网关的双活方案,减少了故障节点,降低了系统布置的复杂度;并且与公有云可以进行联动,实现备份容灾上云,云内分钟级业务恢复。
“OceanStor Dorado可以实现故障0感知、业务0影响、升级0影响,真正保障了业务永久在线。”张鹏自豪道。
高端存储产品看似暮霭沉沉,其实却蕴含新生机。人工智能技术的崛起,赋予了高端存储新的生机。高端存储产品走向智能化成为必然的趋势。
“要让一个存在几十年历史的产品焕发活力,必须思考加入一些创新性的技术。”张鹏如是说。为此,华为在OceanStor Dorado中加入了大量的智能技术,“华为在AI算法方面投入很大。”比如,OceanStor Dorado的智能多协议接口芯片,可以承载通用CPU负责协议解析工作,智能完成协议的解析;而AI芯片则基于机器学习框架,主动分析并掌握多个应用模型的IO规律,让读缓存命中率提升50%。
“OceanStor Dorado这种全互联、全共享的架构,非常适合采用机器学习这些人工智能技术,对IO进行全局的学习和分析,实现存储操作更加智能化,从而提升系统的性能和效率。”张鹏补充道。
此外,OceanStor Dorado还基于AI芯片和算法实现了全生命周期的智能运维,包括资源规划、业务发放、系统调优、风险预测、故障定位等实现了全方位智能管理,使得性能容量趋势可以提前60天预判,提前14天发现故障盘,93%的问题可以即时给出方案。
“OceanStor Dorado整个系统架构就是智能化设计的,控制器和硬盘柜可以分别独立升级,确保10年内数据无需迁移。”张鹏介绍到。
张鹏直言,OceanStor Dorado项目让他和他的团队在过去两年承受了巨大的压力,项目技术难度大、规模大,全新的硬件设计、全新的软件和操作系统,全都需要重新设计和实现,过去两年几乎每天都需要加班加点。“虽然很累,但是团队还是希望不断挑战自己,一步一步实现了OceanStor Dorado从设计到交付。”
与此同时,华为存储在全闪存市场刮起了一股旋风,不仅是国内全闪存市场第一,还是全球全闪存市场增速第一的厂商。这背后正是华为存储团队多年以来持续不懈的努力所铸就的。
就在OceanStor Dorado发布的当天,全新形象也惊艳亮相:一条遨游大海的剑鱼,腾空出世,跃出海面。正所谓“长风破浪会有时,直挂云帆济沧海”,华为OceanStor Dorado,正在勇往直前。