【方辉专栏】机器学习运营管理体系MLOps是什么
发布时间:2022-07-13

1. MLOps是什么?

MLOps(Machine Learning Operations)是面向机器学习项目的研发运营管理体系,目的是连接业务团队、AI团队和运营团队,建立一套标准化的模型开发、部署及运营流程,来管理机器学习项目的全生命周期。


Google 的团队一直在对构建基于 ML 的系统所带来的技术挑战进行大量研究。 一篇关于机器学习系统中隐藏的技术债务的 NeurIPS 论文表明,开发模型只是整个过程的一小部分。 许多其他流程、配置和工具将被集成到系统中。如下图所示:



因此MLOps的核心价值在于,解决机器学习项目角色间沟通壁垒。ML项目研发过程中各角色之间(业务人员、AI工程师、数据科学家、运维工程师等)存在着天然鸿沟,而打破沟通屏障,构建畅通的协作平台,降低合作成本,是让项目顺利开展的前提。同时使AI工程师不用再沦陷于处理繁琐的模型更新和维护等工作,而可潜心钻研更有价值的内容。


2. MLOps的发展趋势

MLOps是机器学习项目走向规模化应用的有效途径,通过持续训练、持续集成、持续部署、持续监控等多个自动化循环流程,大大减少开发周期,提升交付质量,降低人员依赖,提高研发效能,推动挖掘更多元化的业务价值。

借鉴DevOps精髓,MLOps从需求到模型维护的全链路,以及模型开发及训练的子链路,和模型部署及监控的子链路,都秉承着持续闭环的全生命周期管理模式。

持续训练CT,实验阶段模型的持续训练能大大降低AI工程师时间成本,上线模型的持续训练能提高模型服务质量,及时应对数据漂移和内容漂移等风险。

持续集成CI和持续部署CD,以达到随时随地轻松部署ML模型目的。

持续监控CM,持续开展线上的模型和业务监控,根据监控报警开展模型重复训练和更新,维持和提高模型推理质量,持续创造高水准业务价值。

流水线Pipelines,数据处理流水线、模型开发流水线、集成交付流水线的构建,最大程度提高自动化水平,高效率实现ML项目全生命周期管理。

特征管理、算法管理、模型管理,通过对特征、算法和模型的存储及管理,最大限度发挥各类资产的价值,减少重复造轮子的组织级成本,提高统筹管理效能。

版本管理,模型的版本管理即对数据、算法、模型等资产完整性及可追溯性的集中管理,能随时重现任何时刻的模型快照。

自动化测试,集成自动测试工具,提高测试的自动化水平,包括组件测试、数据验证、模型验证等,进而提高全链路持续化水平。

工程化使悬在云端的AI梦想终于落地变成现实,而MLOps是工程化助推剂。未来MLOps的发展将在流水线间的连通性、模型线上自更新、资源伸缩性管理、模型自动调参、模型可解释性、模型安全性及公平性等方面得到进一步的探索和实践。


人工智能已走入千家万户,MLOps走入千家万企已指日可待,未来可期。


+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


关于九游会J9电子

九游会J9电子技术有限公司(英文名称:Emdoor Electronics Technology Co.,Ltd)是国内资深的研发工具软件提供商,公司成立于 2002 年,面向中国广大的制造业客户提供研发、设计、管理过程中使用的各种软件开发工具,致力于帮助客户提高研发管理效率、缩短产品设计周期,提升产品可靠性。


欢迎关注“九游会J9电子”公众号

了解更多研发工具软件知识