今天,OpenAI 发布了其全新的非推理模型——GPT-4.5,这是迄今为止规模最大、知识最丰富的语言模型。GPT-4.5 基于 GPT-4 的基础上进行了扩展,进一步加强了预训练过程的深度和广度。尽管 GPT-4.5 并不是 OpenAI 的前沿模型,但它仍然是其最大的语言模型(LLM),相比 GPT-4,拥有更丰富的世界知识、更好的写作技巧和更精致的个性。
GPT-4.5 的特点
GPT-4.5 继承了 GPT-4 的所有优势,同时也进行了改进,具体表现为:文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
- 更好的书写能力:提升了文本生成的流畅度和自然性。
- 更丰富的世界知识:更新了更多的全球信息,使其能够处理更广泛的话题。
- 更精致的个性:相比前代模型,GPT-4.5 展现出了更加细腻的个性化表现。
然而,GPT-4.5 的发布并未引入足够多的新特性,因此不能被视为前沿模型。OpenAI 在发布前的一份文件中提到,“GPT-4.5 不是前沿模型,但它是 OpenAI 目前最大的 LLM,比 GPT-4 的计算效率提高了 10 倍以上。”文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
性能与基准测试
尽管 GPT-4.5 在某些方面有所提升,但基准测试数据表明,它与 GPT-4 的升级幅度相对较小。在 SWE-bench Verified 基准测试中,GPT-4.5 的得分为 38%,相比 GPT-4 提升了 2-7%。然而,它的性能仍低于 OpenAI 基于 O3 的深度研究模型,后者的得分超过 30%。与此相比,Anthropic 的 Claude 3.7 Sonnet 在同一测试中取得了 62.3% 的成绩。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
新的 SWE-Lancer 基准
OpenAI 的 Preparedness 团队推出了一个新的基准——SWE-Lancer,用于评估语言模型在实际软件工程任务中的表现。该基准测试涵盖了功能开发、设计、错误修复等任务。在此基准中,GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务,比 OpenAI 的 O1 模型略有提高。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
安全性评估
在安全方面,OpenAI 对 GPT-4.5 的评估表明,该模型的总体风险等级为中等。其在网络安全和模型自主性方面的得分较低,这提示用户在使用该模型时应谨慎。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
访问与使用
目前,GPT-4.5 的研究预览版已对 ChatGPT Pro 用户开放,所有付费套餐的开发者也可以通过 API 使用该预览版。预计下周,ChatGPT Plus 用户也将能够体验这一新功能。文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html
更多关于 GPT-4.5 的细节,您可以访问 OpenAI 的官方网站:Introducing GPT-4.5文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html 文章源自堕落的鱼-https://www.duoluodeyu.com/2804.html