Meta发布了一个超酷的新工具:开源了智能体(AI Agent)研究平台ARE,以及手机应用型测试集Gaia2。最核心的发现:
1.目前还没有任何一个AI模型能“通吃”所有场景:
•GPT-5推理最强,但一遇时间紧迫就“翻车”;
•Claude-4 Sonnet速度和准确度更平衡,但成本高;
•开源的Kimi-K2在环境适应性上表现亮眼。
2.在有截止期限的任务里,模型“想得越久越容易翻车”,更聪明的AI未必更快。
3.多智能体协作模式对弱模型有明显帮助,但对最强的模型反而是拖累。
ARE平台专为逼真环境打造:
•时间实时流动,AI响应慢会错失时机;
•所有任务都以App、事件和通知的形式模拟。
Gaia2测试集含1120个场景,模拟了聊天、购物、日历等12款真实手机应用,挑战包括搜索、执行、时间管理、歧义处理和智能体协作。
AI智能体若要真正落地应用,必须在高压力、高实时性的环境中考验,这正是Meta新工具的独特价值。
点击图片查看原图