OpenAI 发布 GPT-4.5 迄今为止规模最大、知识最丰富的模型基准测试数据表明，GPT-4.5 比 GPT-4o 的升级幅度不大

OpenAI 发布 GPT-4.5 迄今为止规模最大、知识最丰富的模型

基准测试数据表明，GPT-4.5 比 GPT-4o 的升级幅度不大。在 SWE-bench Verified 基准测试中，GPT-4.5 达到了 38%，比 GPT-4o 提升了 2-7%，比 OpenAI 基于 O3 的深度研究模型低 30%。相比之下，Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了相当于 62.3% 的性能。最近，OpenAI 的 Preparedness 团队开发了一个名为SWE-Lancer的新基准，用于评估 LLM 在实际软件工程任务中的性能，包括功能开发、设计、错误修复等。在这个新的基准测试中，GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务，比 OpenAI 的 o1 模型略有提高。您可以在这里阅读新模型的细节：https://openai.com/index/introducing-gpt-4-5/在安全方面，根据准备评估的结果，OpenAI 的安全顾问小组将新的 GPT-4.5 模型归类为总体中等风险。它在网络安全和模型自主性方面的得分也较低。新的 GPT-4.5 模型研究预览版现在可供 ChatGPT Pro 用户使用，所有付费套餐的开发者也可通过 API 使用该预览版。下周，ChatGPT Plus 用户也将获得该功能。 ...

PC版：https://www.cnbeta.com.tw/articles/soft/1482096.htm
手机版：https://m.cnbeta.com.tw/view/1482096.htm

via cnBeta.COM中文业界资讯站 - Telegram Channel