各大操作系统都在搞基于UI 的 Agent,新的交互方式并不会太远:
1、Windows平台:UFO
A UI-Focused Agent for Windows OS Interaction.
2、iOS 平台:苹果 Ferret-UI
苹果 Ferret-UI 多模态大型语言模型(MLLM),专门针对移动用户界面(UI)屏幕的理解进行了优化。Ferret-UI具备引用、定位和推理能力,能够更有效地理解和与UI屏幕进行交互。
3、Android 平台:ScreenAI
ScreenAI的核心是一种新的屏幕截图文本表示方法,可以识别UI元素的类型和位置
点击图片查看原图
点击图片查看原图
点击图片查看原图