Domino Data Lab向MLOps添加了自动伸缩_科技速览

正如大数据兄弟Andrew Brust去年秋天报道的那样，Domino Data Lab最近对MLOps有了更广泛的看法，从实验管理到模型的持续集成/持续交付、特性工程和生命周期管理。在最近发布的5.0版本中，Domino将重点放在通常会减慢物理部署速度的障碍上。

其中最主要的新功能是自动伸缩。在此之前，数据科学家要么扮演集群工程师的角色，要么与集群工程师合作，将模型投入生产并管理计算。新发布的版本允许这一步骤实现自动化，与亚马逊SageMaker和谷歌Vertex AI等云服务竞争，这些云服务已经做到了，Azure机器学习在预览中提供。进一步的平滑过程是，它被认证可以在Nvidia AI Enterprise平台上运行(Nvidia是Domino的投资者之一)。

自动伸缩特性是建立在对Ray和Dask(除了Spark)的支持之上的，这是在之前的4.6版本中添加的，它提供了用于在代码中构建分布式计算的api。

5.0处理部署的另一个新特性是添加了一个新的数据连接器库，因此数据科学家不必每次尝试连接Snowflake、AWS Redshift或AWS S3时都要白费力气;其他数据源将在将来添加。

5.0版本的最后一部分是内置监控。这实际上集成了以前独立的功能，并且必须手动配置。在5.0中，一旦部署了模型，Domino就会自动设置监视、捕获实时预测流并运行生产与训练数据的统计检查。为了调试，它捕获模型的快照:代码版本、数据集和计算环境配置。只需单击一下，数据科学家就可以启动版本化模型的开发环境来进行调试。然而，在这一点上，该系统不能自动检测，也不能对需要修复的模型提出建议。

5.0功能的亮点(没有双关语的意思)是解决操作上的难题，这些难题迫使数据科学家执行系统或集群工程任务，或者依赖管理员为他们执行这些任务。

但也存在数据工程瓶颈，正如我们在2018年为Ovum(现在的Omdia)和Dataiku所做的研究所发现的那样。通过与十几位首席数据官的深入讨论，我们发现数据科学家通常会花超过一半的时间在数据工程上。5.0版本解决了数据工程中的一个主要障碍——连接到流行的外部数据源，但是目前Domino没有解决数据管道的设置问题，更基本的是，没有解决数据准备任务的自动化问题。当然，后者(数据准备的集成)是data Robot 2019年收购Paxata的动力。

5.0特性反映了Domino Data Lab和其他ML生命周期管理工具必须将重点从模型生命周期扩大到部署。这反过来也反映了这样一个事实，即随着企业对ML的经验越来越丰富，他们开发的模型也越来越频繁，需要将原本是一次性过程的过程工业化。如果Domino下一步将重点放在功能商店上，我们不会感到惊讶。