OpenAI 发布 GPT-4.5 迄今为止规模最大、知识最丰富的模型
基准测试数据表明,GPT-4.5 比 GPT-4o 的升级幅度不大。 在 SWE-bench Verified 基准测试中,GPT-4.5 达到了 38%,比 GPT-4o 提升了 2-7%,比 OpenAI 基于 O3 的深度研究模型低 30%。 相比之下,Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了相当于 62.3% 的性能。最近,OpenAI 的 Preparedness 团队开发了一个名为SWE-Lancer的新基准,用于评估 LLM 在实际软件工程任务中的性能,包括功能开发、设计、错误修复等。 在这个新的基准测试中,GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务,比 OpenAI 的 o1 模型略有提高。 您可以在这里阅读新模型的细节:https://openai.com/index/introducing-gpt-4-5/在安全方面,根据准备评估的结果,OpenAI 的安全顾问小组将新的 GPT-4.5 模型归类为总体中等风险。 它在网络安全和模型自主性方面的得分也较低。新的 GPT-4.5 模型研究预览版现在可供 ChatGPT Pro 用户使用,所有付费套餐的开发者也可通过 API 使用该预览版。 下周,ChatGPT Plus 用户也将获得该功能。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1482096.htm
手机版:https://m.cnbeta.com.tw/view/1482096.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel
基准测试数据表明,GPT-4.5 比 GPT-4o 的升级幅度不大。 在 SWE-bench Verified 基准测试中,GPT-4.5 达到了 38%,比 GPT-4o 提升了 2-7%,比 OpenAI 基于 O3 的深度研究模型低 30%。 相比之下,Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了相当于 62.3% 的性能。最近,OpenAI 的 Preparedness 团队开发了一个名为SWE-Lancer的新基准,用于评估 LLM 在实际软件工程任务中的性能,包括功能开发、设计、错误修复等。 在这个新的基准测试中,GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务,比 OpenAI 的 o1 模型略有提高。 您可以在这里阅读新模型的细节:https://openai.com/index/introducing-gpt-4-5/在安全方面,根据准备评估的结果,OpenAI 的安全顾问小组将新的 GPT-4.5 模型归类为总体中等风险。 它在网络安全和模型自主性方面的得分也较低。新的 GPT-4.5 模型研究预览版现在可供 ChatGPT Pro 用户使用,所有付费套餐的开发者也可通过 API 使用该预览版。 下周,ChatGPT Plus 用户也将获得该功能。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1482096.htm
手机版:https://m.cnbeta.com.tw/view/1482096.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel