H2O为企业带来AI大师助力的NLP_科技速览

世界上大约有1200名国际象棋大师，而人工智能大师只有250名。在国际象棋中，就像在AI中一样，特级大师是为顶级职业棋手保留的荣誉。在AI中，这个荣誉是由Kaggle进程系统中表现最好的数据科学家授予的。

H2O。ai是一家人工智能云公司，该公司在2021年底的E轮融资中筹集了1亿美元，目前估值为16亿美元，雇佣了全球10%的人工智能大师。该公司刚刚发布了一款名为H2O氢气火炬(H2O Hydrogen Torch)的产品，旨在为企业带来图像、视频和自然语言处理(NLP)方面的人工智能大师。

我们与H2O首席执行官兼创始人Sri Ambati进行了交流，讨论了H2O的起源、氢气火炬的整体产品以及它在人工智能领域的应用。

H2O: AI的栈

安巴蒂在几十年前就开始与人工智能合作，为印度的太空研究项目做语音到文本的翻译。后来，他偶然发现了神经网络，当时神经网络还处于早期阶段。作为硅谷的移民，他在初创公司工作过一段时间。他还花时间在伯克利和斯坦福之间的学术休假，遇到了数学家、物理学家和计算机科学家。

与他们合作，Ambati为H2O的开源基础奠定了基础。但直到他的母亲患了乳腺癌，他才“受到启发，决定让机器学习普及给所有人。”

安巴蒂开始着手将人工智能应用到每一位医生或数据科学家的指尖，用他的话说，解决对社会有价值的问题。为了做到这一点，他补充道，必须彻底改造大规模的数学和分析。这导致了H2O的出现，它汇集了编译器工程师、系统工程师、数学家、数据科学家和大师，使构建高价值和高精度的模型变得非常容易，而且非常快。

为了实现这一点，H2O公司多年来建立了一条完整的产品线。Ambati表示，H2O在2012年成立时，可扩展的开源AI基础还存在缺口。像R和Python这样的语言允许人们构建模型，但它们非常缓慢或脆弱，或者功能不全。按照安巴蒂的说法，H2O的贡献在于他们建造了“世界上最快的距离计算器”。

这是对深度学习中用于矩阵乘法的核心数学的参考。当你可以计算两个长张量之间的距离时，Ambati继续添加，你可以开始在高维和低维数据中产生丰富的线性和非线性数学。

这个贡献是H2O开源框架的一部分。Ambati将这种低级基础称为“人工智能的汇编语言”。然后是H2O集成框架和开源社区，如Scikit-learn、XGBoost、谷歌的TensorFlow或Facebook的PyTorch。H2O团队开始为这些项目做出贡献，并最终在AutoML中构建了一个集成的框架。

H2O在这一领域的产品包括基于H2O开源和XGBoost的H2O AutoML，以及更广泛的称为无人驾驶AI的闭源产品。两者都以时间序列数据为目标，这是许多企业用例(如流失预测、欺诈预防或信用评分)的骨干。

在过去的四年里，无人驾驶AI一直是“H2O经济的引擎”。它帮助H2O获得了数百家客户，其中包括超过半数的财富500强，包括AT&T、花旗、Capital One、葛兰素史克、日立、Kaiser Permanente、宝洁、贝宝、普华永道、利洁时、联合利华和沃尔格林。

Ambati称这一层为“人工智能的编译器”。这就是H2O开始使用特级大师方法的地方:将问题空间划分为许多配方，将Kaggle特级大师分配给每个配方，目的是提炼他们的知识，使地面团队的工作更容易。

在建立一个好的机器学习模型之后，下一个阶段是安全地操作这个模型。数据本身就有偏见，偏见模型不应该毫无争议地投入生产。发现盲点，进行对抗测试和模型验证，部署模型，然后将其集成到软件构建的CI/CD中，这就是Ambati所说的“人工智能中间件”。

这可以通过混合云、内部部署和H2O(人工智能云)提供的边缘服务来解决。客户通过应用程序来使用它:有一个人工智能应用程序商店，一个预先建立的模型商店，以及特色商店，这些都是模型构建的结晶。AI云也是多云的，因为客户想要选择。然后还有H2O Wave——根据Ambati的说法，这是一个用于构建应用程序的SDK。

站在网络巨人的肩膀上

Hydrogen Torch是H2O最新的产品组合，专门针对图像、视频和NLP处理用例的应用，包括识别或分类对象，分析情绪，或在文本中查找相关信息。这是一个无代码的产品，安巴蒂对此表示:

“它进入了谷歌、微软、亚马逊和Facebook等网络巨头的传统领域，并使用了他们的一些创新，但它允许客户更轻松地使用深度学习，既采用预先构建的模型，又将其转化为本地使用，这对他们构成了挑战。”

Ambati提到了一些氢火炬的早期用户用例，比如实时视频处理。在新加坡，这样做是为了确认交通是否恢复，或者某些情况是否会导致事故。使用的方法是采用“传统的”大型机器学习模型，然后对它们进行微调，以适应手头的特定数据。

Hydrogen Torch使用了Facebook的PyTorch和谷歌的谷歌的TensorFlow。H2O把它们和大师的专长结合起来，再加上一个集成的环境。这还包括H2O的MLOps产品，该产品以即将投入生产的数据和机器学习管道为基础。

模型正在被持续监测，以确定它们的准确性是否发生了变化。这可能是因为传入数据的模式发生了变化，或者因为最终用户的行为发生了变化。无论采用哪种方式，模型都会被重建和重新部署。

此外，Hydrogen Torch提供的部分无代码服务是自动化的文档生成，因此数据科学家可以深入研究选择了哪些数据以及应用了哪些转换。Ambati表示，与基准模型相比，氢火炬模型的准确性可以提高30%，达到90%以上。

当然，他接着补充道，AI在准确性、速度和可解释性之间存在着众所周知的权衡。根据用例需求，必须做出选择。然而，速度是一个普遍的要求。

就速度而言，H2O的内存处理在确保氢气Torch能够根据需要执行图像、视频和NLP处理用例方面发挥着关键作用。在相关领域，H2O也将机器学习模型小型化提上日程。这将使模型能够部署在更多的设备在边缘，也有更好的性能。

氢火炬还与H2O的另一个产品，即文档AI，有协同作用。文档AI可以处理传入的文档，结合图像和NLP方法。此外，来自Zoom电话和播客等来源的音频和视频数据正在激增，而H2O旨在帮助其客户跟上这一趋势。

H2O正在与一些知名客户进行合作，如联邦银行和美国电话电报公司。H2O的专家和客户组织共同创建机器学习模型，并有一个收入分享方案。

Ambati还指出，H2O的投资组合中还有更多未来增长的领域:联合人工智能、内容创建、合成数据生成、数据讲故事，甚至数据新闻等领域都在H2O的雷达范围内。安巴蒂说，我们的目标是建立对人工智能服务社区的信任。这确实是一个宏伟的愿景，其进展是难以衡量的。然而，就产品路线图而言，H2O似乎是在正确的轨道上。

H2O为企业带来AI大师助力的NLP

H2O: AI的栈

站在网络巨人的肩膀上

相关推荐