
本周早些时候,梅塔因为在众包基准测试LM Arena上使用实验性的未发布版本的Llama 4 Maverick模型而惹上了麻烦,取得了高分。这一事件促使LM Arena的维护者道歉,改变政策,并对未经修改的香草Maverick进行评分。
\事实证明,它并不具竞争力。
\未经修改的Maverick,“Llama-4-Maverick-17B-128E-Instruct”,在周五的排名中位于OpenAI的GPT-4o,Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro等模型之下。这些模型中许多都已经存在数月。
\\\在发现他们作弊后,Llama 4的发布版本被添加到LMArena中,但你可能没看到,因为你得往下滚动到排名第32的地方 pic.twitter.com/A0Bxkdx4LX
\— ρ:ɡeσn (@pigeon__s) 2025年4月11日
\
为什么表现不佳?梅塔在上周六发布的一张图表中解释说,未经修改的Maverick,“Llama-4-Maverick-03-26-Experimental”,被“优化为对话性。” 显然,这些优化在LM Arena表现出色,LM Arena让人类评级者比较模型的输出,并选择他们偏爱的模型。
\正如我们之前所写的那样,出于各种原因,LM Arena从来都不是最可靠的衡量AI模型性能的方法。尽管如此,将模型量身定制到一个基准测试中,除了具有误导性之外,还使开发人员难以准确预测模型在不同情境中的表现。
\梅塔发言人向TechCrunch表示,在梅塔实验了“各种自定义变体”。
\“‘Llama-4-Maverick-03-26-Experimental’是我们尝试过的一个优化对话的版本,在LM Arena上表现良好,”发言人说。“我们现在发布了我们的开源版本,将看到开发人员如何为他们自己的用例定制Llama 4。我们很期待看看他们会构建什么,并期待他们的持续反馈。”