TechCrunch：Meta 新AI模型的性能测试有点误导人作者：Kyle WiggersMeta 上周六发布了一款旗舰AI模型——Maverick。在人类评审员对不同AI模型生成内容进行比较的LM Arena排行榜中，这款模型排名第二。但实际上，Meta 提供给 LM Arena 测试的 Maverick

发布时间: 2025-04-07 12:00:47

2分

数据加载中

TechCrunch：Meta 新AI模型的性能测试有点误导人
作者：Kyle Wiggers
Meta 上周六发布了一款旗舰AI模型——Maverick。在人类评审员对不同AI模型生成内容进行比较的LM Arena排行榜中，这款模型排名第二。但实际上，Meta 提供给 LM Arena 测试的 Maverick
IT技术
( twitter.com )

TechCrunch：Meta 新AI模型的性能测试有点误导人
作者：Kyle Wiggers

Meta 上周六发布了一款旗舰AI模型——Maverick。在人类评审员对不同AI模型生成内容进行比较的LM Arena排行榜中，这款模型排名第二。但实际上，Meta 提供给 LM Arena 测试的 Maverick 模型版本，似乎和公开提供给开发者的版本有所不同。

一些AI研究人员在社交平台X（原Twitter）上指出，Meta 在发布公告中明确提到，用于 LM Arena 测试的 Maverick 是一个“实验性的聊天版本”。而在Llama官方网站的图表中，Meta也标注了LM Arena测试中使用的版本是“专门针对对话场景优化的Llama 4 Maverick”。

过去我们曾多次提及，由于各种原因，LM Arena 并非最可靠的AI模型性能评测工具。不过，此前AI公司一般并不会刻意为提升 LM Arena 得分来专门优化自己的模型——或者至少未公开承认过这种行为。

Meta 此次做法的问题在于，他们针对基准测试优化了模型，提供给LM Arena后，却向开发者发布了未经特别优化的“基础版”。这种方式容易造成误导，也会让开发者难以准确预测模型在实际应用场景中的表现。理想情况下，虽然目前基准测试工具存在诸多不足，但至少可以帮助人们大致了解某个模型在不同任务中的优缺点。

实际上，X平台上的研究人员发现，公开可下载的 Maverick 版本与 LM Arena 上的版本行为差异很大。LM Arena 上的 Maverick 大量使用表情符号，回答内容也明显更啰嗦冗长。

点击图片查看原图