梅塔的香草Maverick AI模型在流行的聊天基准测试中排名低于竞争对手

欧亚近展

Saturday, April 19 2025

本周早些时候，梅塔因为在众包基准测试LM Arena上使用实验性的未发布版本的Llama 4 Maverick模型而惹上了麻烦，取得了高分。这一事件促使LM Arena的维护者道歉，改变政策，并对未经修改的香草Maverick进行评分。

事实证明，它并不具竞争力。

未经修改的Maverick，“Llama-4-Maverick-17B-128E-Instruct”，在周五的排名中位于OpenAI的GPT-4o，Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro等模型之下。这些模型中许多都已经存在数月。

\
在发现他们作弊后，Llama 4的发布版本被添加到LMArena中，但你可能没看到，因为你得往下滚动到排名第32的地方 pic.twitter.com/A0Bxkdx4LX
\
— ρ:ɡeσn (@pigeon__s) 2025年4月11日
\

为什么表现不佳？梅塔在上周六发布的一张图表中解释说，未经修改的Maverick，“Llama-4-Maverick-03-26-Experimental”，被“优化为对话性。” 显然，这些优化在LM Arena表现出色，LM Arena让人类评级者比较模型的输出，并选择他们偏爱的模型。

正如我们之前所写的那样，出于各种原因，LM Arena从来都不是最可靠的衡量AI模型性能的方法。尽管如此，将模型量身定制到一个基准测试中，除了具有误导性之外，还使开发人员难以准确预测模型在不同情境中的表现。

梅塔发言人向TechCrunch表示，在梅塔实验了“各种自定义变体”。

“‘Llama-4-Maverick-03-26-Experimental’是我们尝试过的一个优化对话的版本，在LM Arena上表现良好，”发言人说。“我们现在发布了我们的开源版本，将看到开发人员如何为他们自己的用例定制Llama 4。我们很期待看看他们会构建什么，并期待他们的持续反馈。”

欧亚近展