2022-02-12 05:29

Domino Data Lab向MLOps添加了自动伸缩

ds.png

正如大数据兄弟Andrew Brust去年秋天报道的那样,Domino Data Lab最近对MLOps有了更广泛的看法,从实验管理到模型的持续集成/持续交付、特性工程和生命周期管理。在最近发布的5.0版本中,Domino将重点放在通常会减慢物理部署速度的障碍上。

其中最主要的新功能是自动伸缩。在此之前,数据科学家要么扮演集群工程师的角色,要么与集群工程师合作,将模型投入生产并管理计算。新发布的版本允许这一步骤实现自动化,与亚马逊SageMaker和谷歌Vertex AI等云服务竞争,这些云服务已经做到了,Azure机器学习在预览中提供。进一步的平滑过程是,它被认证可以在Nvidia AI Enterprise平台上运行(Nvidia是Domino的投资者之一)。

自动伸缩特性是建立在对Ray和Dask(除了Spark)的支持之上的,这是在之前的4.6版本中添加的,它提供了用于在代码中构建分布式计算的api。

5.0处理部署的另一个新特性是添加了一个新的数据连接器库,因此数据科学家不必每次尝试连接Snowflake、AWS Redshift或AWS S3时都要白费力气;其他数据源将在将来添加。

5.0版本的最后一部分是内置监控。这实际上集成了以前独立的功能,并且必须手动配置。在5.0中,一旦部署了模型,Domino就会自动设置监视、捕获实时预测流并运行生产与训练数据的统计检查。为了调试,它捕获模型的快照:代码版本、数据集和计算环境配置。只需单击一下,数据科学家就可以启动版本化模型的开发环境来进行调试。然而,在这一点上,该系统不能自动检测,也不能对需要修复的模型提出建议。

5.0功能的亮点(没有双关语的意思)是解决操作上的难题,这些难题迫使数据科学家执行系统或集群工程任务,或者依赖管理员为他们执行这些任务。

但也存在数据工程瓶颈,正如我们在2018年为Ovum(现在的Omdia)和Dataiku所做的研究所发现的那样。通过与十几位首席数据官的深入讨论,我们发现数据科学家通常会花超过一半的时间在数据工程上。5.0版本解决了数据工程中的一个主要障碍——连接到流行的外部数据源,但是目前Domino没有解决数据管道的设置问题,更基本的是,没有解决数据准备任务的自动化问题。当然,后者(数据准备的集成)是data Robot 2019年收购Paxata的动力。

5.0特性反映了Domino Data Lab和其他ML生命周期管理工具必须将重点从模型生命周期扩大到部署。这反过来也反映了这样一个事实,即随着企业对ML的经验越来越丰富,他们开发的模型也越来越频繁,需要将原本是一次性过程的过程工业化。如果Domino下一步将重点放在功能商店上,我们不会感到惊讶。

相关推荐