
更新时间为下午2:40:GPT-4.5发布几小时后,OpenAI从AI模型的白皮书中删掉了一句话,该句话称“GPT-4.5不是一个前沿AI模型”。GPT-4.5的新白皮书不包含该句话。您可以在此处找到旧的白皮书链接。原始文章如下。
\n\nOpenAI宣布将推出GPT-4.5,这款被称为Orion的备受期待的AI模型。GPT-4.5是OpenAI迄今为止规模最大的模型,经过比公司以往发布的任何模型都使用更多的计算能力和数据进行训练。
\n\n尽管规模庞大,但OpenAI在一份白皮书中指出,它并不认为GPT-4.5是一个前沿模型。
\n\n订阅ChatGPT Pro的用户,OpenAI的每月费用为200美元的计划,将从周四开始可以在ChatGPT中使用GPT-4.5作为研究预览。付费访问OpenAI API的开发人员从今天开始也可以使用GPT-4.5。至于其他ChatGPT用户,OpenAI的发言人告诉TechCrunch,已经注册了ChatGPT Plus和ChatGPT Team的客户将在下周某个时候获得该模型。
\n\n业界对Orion的到来颇为期待,有些人认为这将是传统AI训练方法可行性的风向标。GPT-4.5是使用同一关键技术开发的——在“预训练”阶段称为无监督学习过程中大幅增加计算能力和数据——OpenAI用来开发GPT-4、GPT-3、GPT-2和GPT-1的技术。
\n\n在GPT-4.5之前的每一代GPT中,规模的增加都在各个领域实现了巨大的性能提升,包括数学、写作和编码。事实上,OpenAI表示,GPT-4.5的增加规模为其带来了“更深入的世界知识”和“更高的情感智能”。然而,有迹象表明,通过扩大数据和计算来获得收益的性能提升正在开始趋于平稳。在几个AI基准测试中,GPT-4.5落后于中国的AI公司DeepSeek、Anthropic和OpenAI自身的新的AI“推理”模型。
\n\nOpenAI承认,运行GPT-4.5也非常昂贵——如此昂贵,以至于公司表示在长期内正在评估是否继续在其API中提供GPT-4.5。要访问GPT-4.5的API,OpenAI向开发人员收取每百万输入标记(大约750,000个字)75美元,每百万输出标记150美元的费用。相比之下,GPT-4o每百万输入标记仅需2.50美元,每百万输出标记需10美元。
\n\n“我们将GPT-4.5作为研究预览分享,以更好地了解其优势和局限性,”OpenAI在与TechCrunch分享的博客文章中写道。“我们还在探索它的能力,并迫不及待地看到人们如何以我们未曾预料的方式使用它。”
\n\n表现参差不齐
\n\nOpenAI强调,GPT-4.5并不意味着完全可以取代GPT-4o,后者是该公司的主力模型,为其API和ChatGPT提供动力。虽然GPT-4.5支持文件和图像上传等功能,并且ChatGPT的绘图工具,但目前它还不具备像支持ChatGPT的真实双向语音模式的功能。
\n\n从正面来看,GPT-4.5的性能优于GPT-4o和许多其他模型。
\n\n在OpenAI的SimpleQA基准测试中,该测试对AI模型对简单的事实问题的准确性进行测试,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1和o3-mini。据OpenAI称,GPT-4.5的幻觉频率比大多数模型低,理论上这意味着它不太可能编造东西。
\n\nOpenAI没有在SimpleQA上列出其表现最佳的AI推理模型deep research。OpenAI的发言人告诉TechCrunch,公司尚未公开报告deep research在这一基准测试上的表现,并声称这不是一个相关的比较。值得注意的是,AI初创公司Perplexity的Deep Research模型在其他基准测试中表现类似于OpenAI的deep research,在这个事实准确性测试上超过了GPT-4.5。
\n\n
在一个编码问题的子集SWE-Bench Verified基准测试中,GPT-4.5粗略匹配GPT-4o和o3-mini的表现,但落后于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在另一个编码测试中,OpenAI的SWE-Lancer基准测试,该基准测试衡量了AI模型开发完整软件功能的能力,GPT-4.5超过了GPT-4o和o3-mini,但落后于deep research。
\n\n

GPT-4.5并未完全达到领先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上是一个混合模型))在难度较大的学术基准测试(如AIME和GPQA)上的表现。但GPT-4.5与这些相同测试上的领先非推理模型相匹敌或超越,表明该模型在解决与数学和科学相关的问题方面表现良好。
\n\nOpenAI还声称,GPT-4.5在一些基准测试无法很好捕捉的领域优于其他模型,比如理解人类意图的能力。OpenAI表示,GPT-4.5回应的语气更温暖、更自然,并且在写作和设计等创造性任务上表现良好。
\n\n在一个非正式测试中,OpenAI让GPT-4.5和另外两个模型GPT-4o和o3-mini创作一个SVG格式的独角兽,这是一种基于数学公式和代码显示图形的格式。在这个测试中,GPT-4.5是唯一创作出类似独角兽的AI模型。
\n\n
在另一个测试中,OpenAI让GPT-4.5和另外两个模型回应以下提示:“我在考试失败后过得很艰难。”GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回应是最符合社会礼仪的。
\n\n“[w]我们期待通过这一次发布获得GPT-4.5功能的更全面的了解,”OpenAI在博客文章中写道,“因为我们意识到学术基准测试并不总是能反映出真实世界的有用性。”
\n\n
挑战规模定律
\n\nOpenAI声称GPT-4.5“处于无监督学习可能的前沿。”这可能是真的,但该模型的局限性也似乎证实了专家的猜测,即预训练的“规模定律”不会继续持续。
\n\nOpenAI联合创始人兼前首席科学家Ilya Sutskever在去年12月表示,“我们已经达到数据的峰值”,而“我们知道的预训练将无疑终结。”他的言论反映了AI投资人、创始人和研究人员在去年11月TechCrunch的一篇文章中表达的担忧。
\n\n面对预训练的难题,产业——包括OpenAI在内——已经采纳了推理模型,这些模型执行任务的时间比非推理模型花费更长,但往往更加一致。通过增加AI推理模型用于“思考”问题的时间和计算能力,AI实验室相信他们可以显著提高模型的能力。
\n\nOpenAI计划最终将其GPT系列模型与其“o”推理系列相结合,从今年晚些时候开始先从GPT-5开始。据报道,训练GPT-4.5非常昂贵,已经多次延迟,且未达到内部预期,单独它可能无法获得AI基准冠军。但OpenAI很可能将其视为迈向更强大模型的垫脚石。