本站点使用cookies,继续浏览表示您同意我们使用cookies。Cookies和隐私政策

ModelArts 3.0使能平台,助力AI赋能千行百业

华为云长期扎根AI基础技术的研究成果,发布了一站式AI开发平台ModelArts 3.0,旨在助力行业AI落地。

文/田奇 华为云人工智能领域首席科学家
田奇

在多项业界公开竞赛和测评中,华为云EI的持续创新研究均取得了不错的成果,这离不开华为云EI在人工智能领域的长期投入。华为云长期扎根AI的基础研究,覆盖计算机视觉、语音语义和决策优化三大领域,聚焦于模型高效、数据高效、算力高效及知识高效四大方向,华为提出了六大基础研究计划:面向大模型的模型摸高计划、面向小模型的模型瘦身计划、面向多模态学习的数据魔方计划、面向小样本学习的数据冰山计划、面向通用知识抽取的万物预视计划及面向新学习范式的虚实合一计划。

华为云的诸多研究成果,包括自动机器学习、小样本学习、联邦学习、预训练模型等,能够即插即用地部署于ModelArts使能平台,助力AI赋能千行百业。

Communicate 87

聚焦AI三大基础研究领域

感知方面,华为云在ImageNet大规模图像分类、WebVision大规模网络图像分类、MS-COCO二维物体检测、nuScenes三维物体检测、视觉预训练模型的下游分类/检测/分割等验证中,均保持业界领先。目前,由ModelArts驱动的感知模型已经在医疗影像分析、油气勘探及工业故障检测等领域获得了广泛应用。

认知方面,依托语音语义和知识图谱方向的积累,华为云整合行业数据,通过对多样、复杂、孤岛化的数据进行治理,实现了感知智能到认知智能的飞跃。目前,由ModelArts驱动的认知模型已在药物靶点预测、金融诈骗分析、智能售后客服等多项任务中得到应用。

决策方面,依托运筹优化、强化学习、智能控制等算法,华为已经构建起完整的决策底座,使得AI能够真正实现感知-认知-决策的智能闭环。目前,由ModelArts驱动的决策引擎已经应用于机位分配、工业制造、智能交通、游戏娱乐等多个领域。

华为云发布的ModelArts 3.0,是面向AI行业落地提供的一站式AI开发平台。华为云一直在探索如何通过AI技术高效解决行业的挑战,比如,如何用极少数据训练出高精度模型?如何降低企业应用AI的门槛?如何解决企业对数据安全使用的顾虑等?最终,华为云将骨干模型、联邦学习、智能诊断评估优化和高效算力,很好地融入了ModelArts 3.0。

ModelArts 3.0四大新特性

特性1,华为云骨干模型EI-Backbone

华为云骨干工具链EI-Backbone,集模型高效、数据高效、算力高效及知识高效为一体,可全面提升行业AI的落地能力。EI-Backbone的能力,已经在10余个行业获得成功验证,斩获10余个业界挑战赛冠军,发表相关顶级论文100余篇。

EI-Backbone提供了AI开发的新范式,以肺部医疗影像分割为例:

  • 过去需要成百上千例标注数据才能进行的训练,如果采用EI-Backbone,只需几十例甚至十几例标注数据即可完成,节省标注成本90%以上;
  • 过去需要大量专家经验和试错成本的模型选择和超参调节,通过EI-Backbone提供的全空间网络架构搜索和自动超参优化技术,可在无需人工干预的情况下快速完成,且精度大幅提升;
  • 过去需要几周甚至更长时间,从头开始的模型训练、测试、验收和部署流程,在加载EI-Backbone集成的预训练模型后,可以缩短到几小时甚至几分钟内,训练成本降低90%以上。

特性2,联邦学习

众所周知,数据是AI应用的基础,只有基于多样化的数据,才能实现AI的智能感知。然而,当AI在行业实际落地时,由于数据分散在不同的数据控制者之间,导致的行业应用数据孤岛问题,使得AI算法的训练效果受到限制。

针对这个问题,华为云Modelarts提供了联邦学习特性,可实现数据不出户的联合建模。即用户各自利用本地数据训练,不交换数据本身,只用加密方式交换更新的模型参数,就可实现协同训练。

华为云EI在与中国科学院上海药物所蒋华良院士的合作过程中,将华为自研的FedAMP算法及AutoGenome算法应用到药物研发的AI任务中,精准预测了药物水溶解性、心脏毒性和激酶活性,其准确度远超传统的联邦学习和深度学习算法。

此外,华为云提供的云边协同服务,可支持不同地点、不同客户的数据进行联邦训练,通过加密方式上传服务端,对全局模型进行更新,再将其下发至边缘设备,就可便捷支持同业态的横向联邦及跨业态的纵向联邦学习。

特性3,可视评估及智能诊断功能

联邦训练参与者可以通过云端,也可以通过华为云边缘设备(如智能小站)的计算能力参与联邦训练,实现行业内的联合建模。

模型在部署上线前,需要进行充分评估,结果优秀的模型直接投入生产环境,差强人意的则需要进一步优化迭代。ModelArts提供了全面的可视化评估、智能化诊断功能,使得开发者可以直观地了解模型的各方面性能,进而针对性地进行调优或部署生产。

以上皮病变细胞分类模型的评估项目为例:

  • 在精度方面,华为云ModelArts不仅提供了包含准确率、精确率、召回率、F1值、混淆矩阵、ROC曲线等常规指标,还提供了数据敏感度分析模块,以评估模型在不同数据特征子区间上的表现;
  • 在性能方面,ModelArts提供了算子级别的时间、空间消耗统计分析及多种整体的性能指标,并且可针对模型的表现给出相应建议,如模型量化、蒸馏等;
  • 在可解释性方面,ModelArts提供了热力图,用以展示模型做出推理判断所依据的区域;
  • 在可信方面,ModelArts内置了多种模型的可信相关评测方法,提供了多角度模型安全能力评估指标,并能依据当前的模型表现给出相应的防御建议。

随着深度学习分布式训练的不断发展,各类模型的训练对于计算设备的需求越来越大。但由于各种原因,训练作业的资源还没有被充分利用。造成资源浪费的因素主要包括以下几点:

  • 训练算法的代码本身质量不高,资源利用率低;
  • 模型大小及超参数的设置也会显著地改变计算资源的利用率;
  • 资源池整体利用率存在波动峰谷。类似于“峰谷电”,训练作业的提交也有高峰期和低谷期,造成很大的资源浪费。

弹性训练是ModelArts的核心能力之一,其可以根据模型训练速度的需求自适应,以实现资源的高质量分配。

ModelArts提供两种模式,一是Turbo模式,可以充分利用空闲资源加速已有训练作业,训练速度可提升10倍以上,并且不影响模型的收敛精度;二是经济模式,可以通过最大化资源利用率给开发者提供极致的性价比,在大多数典型场景下可以提升性价比30%以上。

特性4,集群规模、任务数量及分布式训练的优化

为了更好地支持超大算力需求的AI研发,华为ModelArts平台对集群规模、任务数量以及分布式训练都进行了针对性的优化。

目前,ModelArts研发平台能够管理上万节点,可更好地支持大型训练任务的需求。通过优化服务框架,ModelArts平台在支持10万级别作业的同时,还可运行、支持万级芯片的大规模分布式任务。

优秀的分布式加速比是大规模集群分布式训练任务的关键能力,也是促使用户选择使用大规模集群来加速AI业务的关键因素。

华为云ModelArts具有领先的分布式加速比能力,在MLPerf benchmark Imagenet-1K分类任务上,使用512芯片集群跑出的93.6秒成绩,优于NVIDIA V100的120秒。在骨干模型、联邦学习、模型诊断优化、高效算力的加持下,华为云ModelArts将加速AI在行业落地。

未来,华为云将持续聚焦于模型高效、数据高效、算力高效和知识高效4个重点方向,扎根于AI基础研究。在计算机视觉、语音语义、决策优化三大AI领域进行基础研究计划投入,华为云将持续努力,提供强大的AI技术,以支持每一位开发者发挥所长、创造独特价值,持续践行普惠AI,与全球开发者共成长的理念!