苹果放大招！新模型Ferret-UI将颠覆AI交互？

2024-04-11

软件资讯

来自：网络收集

　　4月11日消息，苹果近日发布了最新的多模态大语言模型Ferret-UI，该模型专为理解和与移动UI屏幕交互而设计。Ferret-UI在所有基本UI任务上的表现均超越了GPT-4V，显示出了卓越的理解和交互能力。

　　据本站了解，Ferret-UI作为一种新的多模态大型语言模型(MLLM)，具备指向、定位和推理等多重功能，能够有效理解和交互移动UI屏幕上的信息。它通过灵活的输入格式和基础任务，在移动用户界面屏幕上执行各种引用任务。Ferret-UI的一个显著特点是任何分辨率技术，通过放大细节来解决UI屏幕中小型对象的识别问题，从而提升了对UI元素的理解精度。

　　苹果放大招！新模型Ferret-UI将颠覆AI交互？

　　此外，Ferret-UI不仅能够在详细描述和感知对话中讨论视觉元素，还能在交互对话中提出目标导向的动作，并通过函数推理来推断屏幕的整体功能。研究人员为了增强模型的推理能力，特别编译了用于高级任务的数据集，包括详细描述、感知/交互对话和函数推理等方面的数据。

　　在基础任务性能的比较上，Ferret-UI展现出了对UI屏幕的出色理解能力以及执行开放式指令的能力。这项技术的掌握使得AI能够像人类一样进行交互，预示着苹果未来可能将改变MLLM的游戏规则。

　　通过独特的模型架构和数据集训练方法，Ferret-UI实现了对移动UI屏幕的深入理解和有效交互，为用户带来了更为智能和便捷的操作体验。这一技术的突破，无疑将推动科技行业向更智能化、人性化的方向发展。

喜来康闪耀CMEF，创新空气波气压技术引领健康未来

人宠同居，全靠「现代洗剪吹」

苹果放大招！新模型Ferret-UI将颠覆AI交互？

文章教程 分类

文章教程分类