TechCrunch:Meta 新AI模型的性能测试有点误导人
作者:Kyle Wiggers
Meta 上周六发布了一款旗舰AI模型——Maverick。在人类评审员对不同AI模型生成内容进行比较的LM Arena排行榜中,这款模型排名第二。但实际上,Meta 提供给 LM Arena 测试的 Maverick 模型版本,似乎和公开提供给开发者的版本有所不同。
一些AI研究人员在社交平台X(原Twitter)上指出,Meta 在发布公告中明确提到,用于 LM Arena 测试的 Maverick 是一个“实验性的聊天版本”。而在Llama官方网站的图表中,Meta也标注了LM Arena测试中使用的版本是“专门针对对话场景优化的Llama 4 Maverick”。
过去我们曾多次提及,由于各种原因,LM Arena 并非最可靠的AI模型性能评测工具。不过,此前AI公司一般并不会刻意为提升 LM Arena 得分来专门优化自己的模型——或者至少未公开承认过这种行为。
Meta 此次做法的问题在于,他们针对基准测试优化了模型,提供给LM Arena后,却向开发者发布了未经特别优化的“基础版”。这种方式容易造成误导,也会让开发者难以准确预测模型在实际应用场景中的表现。理想情况下,虽然目前基准测试工具存在诸多不足,但至少可以帮助人们大致了解某个模型在不同任务中的优缺点。
实际上,X平台上的研究人员发现,公开可下载的 Maverick 版本与 LM Arena 上的版本行为差异很大。LM Arena 上的 Maverick 大量使用表情符号,回答内容也明显更啰嗦冗长。
点击图片查看原图