2022-02-22 13:25

H2O为企业带来AI大师助力的NLP

世界上大约有1200名国际象棋大师,而人工智能大师只有250名。在国际象棋中,就像在AI中一样,特级大师是为顶级职业棋手保留的荣誉。在AI中,这个荣誉是由Kaggle进程系统中表现最好的数据科学家授予的。

H2O。ai是一家人工智能云公司,该公司在2021年底的E轮融资中筹集了1亿美元,目前估值为16亿美元,雇佣了全球10%的人工智能大师。该公司刚刚发布了一款名为H2O氢气火炬(H2O Hydrogen Torch)的产品,旨在为企业带来图像、视频和自然语言处理(NLP)方面的人工智能大师。

我们与H2O首席执行官兼创始人Sri Ambati进行了交流,讨论了H2O的起源、氢气火炬的整体产品以及它在人工智能领域的应用。

H2O: AI的栈

安巴蒂在几十年前就开始与人工智能合作,为印度的太空研究项目做语音到文本的翻译。后来,他偶然发现了神经网络,当时神经网络还处于早期阶段。作为硅谷的移民,他在初创公司工作过一段时间。他还花时间在伯克利和斯坦福之间的学术休假,遇到了数学家、物理学家和计算机科学家。

与他们合作,Ambati为H2O的开源基础奠定了基础。但直到他的母亲患了乳腺癌,他才“受到启发,决定让机器学习普及给所有人。”

安巴蒂开始着手将人工智能应用到每一位医生或数据科学家的指尖,用他的话说,解决对社会有价值的问题。为了做到这一点,他补充道,必须彻底改造大规模的数学和分析。这导致了H2O的出现,它汇集了编译器工程师、系统工程师、数学家、数据科学家和大师,使构建高价值和高精度的模型变得非常容易,而且非常快。

为了实现这一点,H2O公司多年来建立了一条完整的产品线。Ambati表示,H2O在2012年成立时,可扩展的开源AI基础还存在缺口。像R和Python这样的语言允许人们构建模型,但它们非常缓慢或脆弱,或者功能不全。按照安巴蒂的说法,H2O的贡献在于他们建造了“世界上最快的距离计算器”。

这是对深度学习中用于矩阵乘法的核心数学的参考。当你可以计算两个长张量之间的距离时,Ambati继续添加,你可以开始在高维和低维数据中产生丰富的线性和非线性数学。

这个贡献是H2O开源框架的一部分。Ambati将这种低级基础称为“人工智能的汇编语言”。然后是H2O集成框架和开源社区,如Scikit-learn、XGBoost、谷歌的TensorFlow或Facebook的PyTorch。H2O团队开始为这些项目做出贡献,并最终在AutoML中构建了一个集成的框架。

H2O在这一领域的产品包括基于H2O开源和XGBoost的H2O AutoML,以及更广泛的称为无人驾驶AI的闭源产品。两者都以时间序列数据为目标,这是许多企业用例(如流失预测、欺诈预防或信用评分)的骨干。

h2ohydrogentorch.png

在过去的四年里,无人驾驶AI一直是“H2O经济的引擎”。它帮助H2O获得了数百家客户,其中包括超过半数的财富500强,包括AT&T、花旗、Capital One、葛兰素史克、日立、Kaiser Permanente、宝洁、贝宝、普华永道、利洁时、联合利华和沃尔格林。

Ambati称这一层为“人工智能的编译器”。这就是H2O开始使用特级大师方法的地方:将问题空间划分为许多配方,将Kaggle特级大师分配给每个配方,目的是提炼他们的知识,使地面团队的工作更容易。

在建立一个好的机器学习模型之后,下一个阶段是安全地操作这个模型。数据本身就有偏见,偏见模型不应该毫无争议地投入生产。发现盲点,进行对抗测试和模型验证,部署模型,然后将其集成到软件构建的CI/CD中,这就是Ambati所说的“人工智能中间件”。

这可以通过混合云、内部部署和H2O(人工智能云)提供的边缘服务来解决。客户通过应用程序来使用它:有一个人工智能应用程序商店,一个预先建立的模型商店,以及特色商店,这些都是模型构建的结晶。AI云也是多云的,因为客户想要选择。然后还有H2O Wave——根据Ambati的说法,这是一个用于构建应用程序的SDK。

站在网络巨人的肩膀上

Hydrogen Torch是H2O最新的产品组合,专门针对图像、视频和NLP处理用例的应用,包括识别或分类对象,分析情绪,或在文本中查找相关信息。这是一个无代码的产品,安巴蒂对此表示:

“它进入了谷歌、微软、亚马逊和Facebook等网络巨头的传统领域,并使用了他们的一些创新,但它允许客户更轻松地使用深度学习,既采用预先构建的模型,又将其转化为本地使用,这对他们构成了挑战。”

Ambati提到了一些氢火炬的早期用户用例,比如实时视频处理。在新加坡,这样做是为了确认交通是否恢复,或者某些情况是否会导致事故。使用的方法是采用“传统的”大型机器学习模型,然后对它们进行微调,以适应手头的特定数据。

Hydrogen Torch使用了Facebook的PyTorch和谷歌的谷歌的TensorFlow。H2O把它们和大师的专长结合起来,再加上一个集成的环境。这还包括H2O的MLOps产品,该产品以即将投入生产的数据和机器学习管道为基础。

模型正在被持续监测,以确定它们的准确性是否发生了变化。这可能是因为传入数据的模式发生了变化,或者因为最终用户的行为发生了变化。无论采用哪种方式,模型都会被重建和重新部署。

此外,Hydrogen Torch提供的部分无代码服务是自动化的文档生成,因此数据科学家可以深入研究选择了哪些数据以及应用了哪些转换。Ambati表示,与基准模型相比,氢火炬模型的准确性可以提高30%,达到90%以上。

当然,他接着补充道,AI在准确性、速度和可解释性之间存在着众所周知的权衡。根据用例需求,必须做出选择。然而,速度是一个普遍的要求。

就速度而言,H2O的内存处理在确保氢气Torch能够根据需要执行图像、视频和NLP处理用例方面发挥着关键作用。在相关领域,H2O也将机器学习模型小型化提上日程。这将使模型能够部署在更多的设备在边缘,也有更好的性能。

氢火炬还与H2O的另一个产品,即文档AI,有协同作用。文档AI可以处理传入的文档,结合图像和NLP方法。此外,来自Zoom电话和播客等来源的音频和视频数据正在激增,而H2O旨在帮助其客户跟上这一趋势。

H2O正在与一些知名客户进行合作,如联邦银行和美国电话电报公司。H2O的专家和客户组织共同创建机器学习模型,并有一个收入分享方案。

Ambati还指出,H2O的投资组合中还有更多未来增长的领域:联合人工智能、内容创建、合成数据生成、数据讲故事,甚至数据新闻等领域都在H2O的雷达范围内。安巴蒂说,我们的目标是建立对人工智能服务社区的信任。这确实是一个宏伟的愿景,其进展是难以衡量的。然而,就产品路线图而言,H2O似乎是在正确的轨道上。

相关推荐