OpenAI 发布 GPT-4.5：最大规模、最丰富的非推理模型

2025年2月28日 21:30:46业界动态评论1,377

今天，OpenAI 发布了其全新的非推理模型——GPT-4.5，这是迄今为止规模最大、知识最丰富的语言模型。GPT-4.5 基于 GPT-4 的基础上进行了扩展，进一步加强了预训练过程的深度和广度。尽管 GPT-4.5 并不是 OpenAI 的前沿模型，但它仍然是其最大的语言模型（LLM），相比 GPT-4，拥有更丰富的世界知识、更好的写作技巧和更精致的个性。

GPT-4.5 的特点

GPT-4.5 继承了 GPT-4 的所有优势，同时也进行了改进，具体表现为：文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html

更好的书写能力：提升了文本生成的流畅度和自然性。
更丰富的世界知识：更新了更多的全球信息，使其能够处理更广泛的话题。
更精致的个性：相比前代模型，GPT-4.5 展现出了更加细腻的个性化表现。

然而，GPT-4.5 的发布并未引入足够多的新特性，因此不能被视为前沿模型。OpenAI 在发布前的一份文件中提到，“GPT-4.5 不是前沿模型，但它是 OpenAI 目前最大的 LLM，比 GPT-4 的计算效率提高了 10 倍以上。”文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html

文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html

性能与基准测试

尽管 GPT-4.5 在某些方面有所提升，但基准测试数据表明，它与 GPT-4 的升级幅度相对较小。在 SWE-bench Verified 基准测试中，GPT-4.5 的得分为 38%，相比 GPT-4 提升了 2-7%。然而，它的性能仍低于 OpenAI 基于 O3 的深度研究模型，后者的得分超过 30%。与此相比，Anthropic 的 Claude 3.7 Sonnet 在同一测试中取得了 62.3% 的成绩。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html

新的 SWE-Lancer 基准

OpenAI 的 Preparedness 团队推出了一个新的基准——SWE-Lancer，用于评估语言模型在实际软件工程任务中的表现。该基准测试涵盖了功能开发、设计、错误修复等任务。在此基准中，GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务，比 OpenAI 的 O1 模型略有提高。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html