苹果的新人工智能模型可以理解你的主屏幕，并增强Siri_科技速览

尽管自生成式人工智能热潮开始以来，苹果没有推出任何人工智能模型，但它正在开发一些人工智能项目。就在上周，苹果的研究人员分享了一篇论文，揭示了该公司正在开发的一种新的语言模型，知情人士称，苹果正在开发两个人工智能机器人。现在，又一份研究报告的发布表明，苹果才刚刚开始。

周一，苹果研究人员发表了一篇研究论文，介绍了Ferret-UI，这是一种新的多模态大语言模型(MLLM)，能够理解移动用户界面(UI)屏幕。

mllm与标准llm的不同之处在于，它们超越了文本，表现出对图像和音频等多模态元素的深刻理解。在这种情况下，Ferret-UI被训练来识别用户主屏幕的不同元素，例如应用程序图标和小文本。

在过去，对于传销来说，识别应用屏幕元素一直是一个挑战，因为它们的性质很小。为了克服这个问题，根据论文，研究人员在Ferret上添加了“任意分辨率”，这使得它可以放大屏幕上的细节。

在此基础上，苹果的MLLM还具有“参考、基础和推理能力”，这使得Ferret-UI能够完全理解UI屏幕，并根据屏幕内容执行任务，如下图所示。

为了衡量该模型与其他MLLM相比的表现，苹果研究人员将Ferret-UI与OpenAI的MLLM GPT-4V进行了公共基准测试、基本任务和高级任务的比较。

在iPhone和Android上，Ferret-UI在几乎所有基本类别的任务上都优于GPT-4V，包括图标识别、OCR、部件分类、查找图标和查找部件任务。唯一的例外是iPhone上的“查找文本”任务，GPT-4V在这方面的表现略优于Ferret型号，如下图所示。

当涉及到基于UI发现的对话时，GPT-4V略有优势，表现优于Ferret 93.4%至91.7%。然而，研究人员指出，Ferret UI的性能仍然“值得注意”，因为它生成原始坐标，而不是GPT-4V选择的一组预定义框。你可以在下面找到一个例子。

这篇文章没有说明苹果计划利用这项技术做什么，或者是否会利用这项技术。相反，研究人员更广泛地表示，Ferret-UI的先进功能有可能对ui相关应用产生积极影响。

研究人员写道:“这些增强功能的出现为众多下游UI应用带来了实质性的进步，从而放大了Ferret-UI在该领域提供的潜在好处。”

Ferret-UI改善Siri的方式是显而易见的。由于该模型对用户的应用程序屏幕有透彻的了解，并且知道如何执行某些任务，因此Ferret-UI可以用来增强Siri为你执行任务的能力。

当然，人们对一个不仅仅是回答问题的助手很感兴趣。像Rabbit R1这样的新型人工智能设备获得了很多关注，因为它能够为你执行整个任务，比如预订航班或点餐，而不需要你一步一步地指导它们。

苹果的新人工智能模型可以理解你的主屏幕，并增强Siri