2024-04-10 13:12

苹果的新人工智能模型可以理解你的主屏幕,并增强Siri

尽管自生成式人工智能热潮开始以来,苹果没有推出任何人工智能模型,但它正在开发一些人工智能项目。就在上周,苹果的研究人员分享了一篇论文,揭示了该公司正在开发的一种新的语言模型,知情人士称,苹果正在开发两个人工智能机器人。现在,又一份研究报告的发布表明,苹果才刚刚开始。

周一,苹果研究人员发表了一篇研究论文,介绍了Ferret-UI,这是一种新的多模态大语言模型(MLLM),能够理解移动用户界面(UI)屏幕。

mllm与标准llm的不同之处在于,它们超越了文本,表现出对图像和音频等多模态元素的深刻理解。在这种情况下,Ferret-UI被训练来识别用户主屏幕的不同元素,例如应用程序图标和小文本。

在过去,对于传销来说,识别应用屏幕元素一直是一个挑战,因为它们的性质很小。为了克服这个问题,根据论文,研究人员在Ferret上添加了“任意分辨率”,这使得它可以放大屏幕上的细节。

在此基础上,苹果的MLLM还具有“参考、基础和推理能力”,这使得Ferret-UI能够完全理解UI屏幕,并根据屏幕内容执行任务,如下图所示。

为了衡量该模型与其他MLLM相比的表现,苹果研究人员将Ferret-UI与OpenAI的MLLM GPT-4V进行了公共基准测试、基本任务和高级任务的比较。

在iPhone和Android上,Ferret-UI在几乎所有基本类别的任务上都优于GPT-4V,包括图标识别、OCR、部件分类、查找图标和查找部件任务。唯一的例外是iPhone上的“查找文本”任务,GPT-4V在这方面的表现略优于Ferret型号,如下图所示。

当涉及到基于UI发现的对话时,GPT-4V略有优势,表现优于Ferret 93.4%至91.7%。然而,研究人员指出,Ferret UI的性能仍然“值得注意”,因为它生成原始坐标,而不是GPT-4V选择的一组预定义框。你可以在下面找到一个例子。

这篇文章没有说明苹果计划利用这项技术做什么,或者是否会利用这项技术。相反,研究人员更广泛地表示,Ferret-UI的先进功能有可能对ui相关应用产生积极影响。

研究人员写道:“这些增强功能的出现为众多下游UI应用带来了实质性的进步,从而放大了Ferret-UI在该领域提供的潜在好处。”

Ferret-UI改善Siri的方式是显而易见的。由于该模型对用户的应用程序屏幕有透彻的了解,并且知道如何执行某些任务,因此Ferret-UI可以用来增强Siri为你执行任务的能力。

当然,人们对一个不仅仅是回答问题的助手很感兴趣。像Rabbit R1这样的新型人工智能设备获得了很多关注,因为它能够为你执行整个任务,比如预订航班或点餐,而不需要你一步一步地指导它们。

相关推荐