苹果新AI模型研究Ferret-UI:或将提升Siri,读懂屏幕内容

科技动态 2024-04-10 09:45 阅读:

苹果最近发布了一份研究论文,介绍了他们最新研发的AI模型Ferret-UI。这个多模式大语言模型不仅能够理解文本,还展现了对图像和音频等多种元素的深刻理解。与标准LLM不同,Ferret-UI被训练出来识别用户主屏幕的不同元素,如应用程序图标和小文本。这一技术的突破在于增加了“任意分辨率”,使其能够放大屏幕上的细节,从而更好地识别屏幕元素。

据研究人员介绍,苹果的MLLM还具有“指代、基础和推理能力”,这使得Ferret-UI能够充分理解UI屏幕并根据屏幕内容执行任务。与OpenAI的GPT-4V相比,在基础任务中,Ferret-UI几乎在所有任务上均表现优异。虽然在某些方面GPT-4V稍微领先,但Ferret-UI的表现仍然“值得关注”。

虽然论文并未提及苹果计划如何利用这项技术,但研究人员表示,Ferret-UI的先进功能有望积极影响与UI相关的应用。特别是,Ferret-UI可以提升Siri的功能,让其更加智能化。由于模型对用户应用屏幕的全面理解以及执行某些任务的知识,Ferret-UI可以用于强化Siri,让其为用户执行任务,提供更加个性化的服务。

苹果的新AI模型Ferret-UI可能会为用户带来更加智能化的体验,让我们拭目以待,看看这项技术将如何改变我们的生活。