2022-02-12 05:29

Starburst赢得新一轮融资,加倍投入数据网格业务

Starburst Data本周宣布,该公司在D轮融资中获得2.5亿美元,融资规模翻了一番以上,并为其分布式查询引擎开辟了一个新的前端门户。该公司声称,这一估值大约是之前估值的三倍,此前公布的估值数据(这里和这里)相互矛盾。这些公告是与该公司的年度在线活动Datanova同步发布的。

进入2022年,该公司将继续加大对数据网格的投入。该公司的主页将自己描述为“数据网格分析引擎”。我们稍后会对此进行更多的讨论。

本周在Datanova,它宣布了一个扩展,为其基于trino的分布式查询引擎添加了一个类似目录的前端门户。在管理方面,门户允许数据生产者和数据工程师定义元数据、跟踪使用情况,并应用基于角色的访问和授权。在终端用户端,他们可以使用门户来发现、浏览和添加对数据集的审查。虽然数据目录是“精简”意义上的,但它并不意味着要取代企业数据目录。作为一个打包了自己查询引擎的轻量级目录,Starburst仍然支持与Alation和Collibra的集成。

在路线图中,Starburst正在加强对新兴开源数据表格式的支持,包括Delta Lake和Iceberg,而Delta Lake的支持将进一步推进。

有了这笔新资金,Starburst今年的一个关键主题是全球扩张,特别是进入市场;虽然它目前在北美和欧洲有业务,但今年标志着它将在亚太地区建立业务。为了其云服务Galaxy(两个月前才在AWS、Azure和谷歌cloud上加入GA),阿里巴巴加入了阿里巴巴。Starburst还加强了与红帽公司的合作,双方都是在私有云上,也都支持红帽公司在AWS和谷歌云上提供的OpenShift Dedicated服务。Starburst通过了OpenShift认证,在红帽公司的市场上可以买到,它是红帽公司OpenShift数据科学云服务中仅有的四个isv之一。与全球系统集成商的合作也在增加。

Starburst Enterprise也可以在HPE Marketplace上作为HPE Ezmeral Runtime的分布式查询引擎,而且两者很快将在北美和欧洲联合上市。但是,为了记录,Starburst的竞争对手Ahana也是如此,该公司的部分管理团队与来自MapR的Ezmeral产品团队有着共同的根源。

星爆还处于早期阶段,发展呈几何级数;过去三年,它的业务每年增长两倍。其中的亮点是最近推出的星爆星系(Starburst Galaxy)托管云服务;云服务即服务(SaaS)业务去年年底才发布,目前在营收数据中还没有明显表现出来。虽然Starburst并不打算为Starburst企业放弃自行部署或自我管理的客户,但有一个小秘密是,该公司预计未来增长的主要动力来自云SaaS服务。

而管理团队的新成员哈维尔•莫利纳(Javier Molina)将在这方面发挥关键作用,他将担任首席营收官。此前担任MongoDB全球销售高级副总裁的Atlas SaaS服务一直处于前沿和中心位置。Atlas发布于近6年前,目前占MongoDB收入的一半以上。莫利纳得到的一个重要教训是,阿特拉斯并不是在一夜之间爆炸式增长的。直到收购了添加了自助登机功能的mLab, Atlas才达到了目前的发展轨道。随着星爆星系在两个月前刚刚推出,你可以预期,它将高度强调自助服务,使客户无需繁琐的年度合同就能按需消费。

显然,Starburst正通过定位分布式查询,将其定位为构建数据产品的关键环节,来解决围绕谁拥有最开源的查询引擎这一琐碎的争论。分布式查询是其Trino技术的核心。构建数据产品是Starburst拥抱数据网格的核心。他们正在将其推广到数据网格已经成为该公司的标语的地步。他们是访问Zhamak Dehghani(当前数据网格概念的作者)即将出版的书的摘要草案章节的来源。

通过将自己标榜为“数据网格的分析引擎”,Starburst正在走一条微妙的线,因为数据网格不是一项技术;它是一组最佳实践和体系结构设计模式,用于本地化数据集的生命周期控制,这些数据集将被视为产品。所以,不,Starburst本身并没有将Starburst Enterprise或Galaxy称为数据网格解决方案。但这两者的区别是非常微妙的。

当然,工具和技术对于支持数据网格的各种任务是必不可少的。而且,有许多任务将超过人类的规模,从管理和自动化数据摄取、数据管道、数据质量,以及验证数据的可靠性、有效性和及时性。显然是人类在推动这个过程,但技术可以衡量他们的努力。

开门见山:星爆企业号或银河号只是数据网格难题的一部分。但数据网格只是星爆之谜的一部分。让我们解释一下。

正如我们所指出的(这里和这里),我们预计今年,数据网格将受到第一次认真的审查和反击。这其实是件好事。对于任何正在接受严格审查的技术实践来说,这都是可以预期的。虽然有一些组织声称会在一夜之间取得胜利,但数据网格将永远是一个旅程,并不是所有的组织都将接受这些实践。

对于任何数据驱动的组织,无论它们是否采用数据网格实践,分布式查询都将是执行的关键部分。虽然Starburst在指出分布式查询的作用和它与治理的关联方面确实是有针对性的,但它也将其信息一般化,而不是绑定在数据网格上,这将是有意义的。这就是与数据结构协同工作的开始。

相关推荐