苹果新AI模型研究Ferret-UI：或将提升Siri，读懂屏幕内容-金财在线

苹果最近发布了一份研究论文，介绍了他们最新研发的AI模型Ferret-UI。这个多模式大语言模型不仅能够理解文本，还展现了对图像和音频等多种元素的深刻理解。与标准LLM不同，Ferret-UI被训练出来识别用户主屏幕的不同元素，如应用程序图标和小文本。这一技术的突破在于增加了“任意分辨率”，使其能够放大屏幕上的细节，从而更好地识别屏幕元素。

据研究人员介绍，苹果的MLLM还具有“指代、基础和推理能力”，这使得Ferret-UI能够充分理解UI屏幕并根据屏幕内容执行任务。与OpenAI的GPT-4V相比，在基础任务中，Ferret-UI几乎在所有任务上均表现优异。虽然在某些方面GPT-4V稍微领先，但Ferret-UI的表现仍然“值得关注”。

虽然论文并未提及苹果计划如何利用这项技术，但研究人员表示，Ferret-UI的先进功能有望积极影响与UI相关的应用。特别是，Ferret-UI可以提升Siri的功能，让其更加智能化。由于模型对用户应用屏幕的全面理解以及执行某些任务的知识，Ferret-UI可以用于强化Siri，让其为用户执行任务，提供更加个性化的服务。

苹果的新AI模型Ferret-UI可能会为用户带来更加智能化的体验，让我们拭目以待，看看这项技术将如何改变我们的生活。

苹果新AI模型研究Ferret-UI 或将提升Siri 读懂屏幕内容