💻 AI模型难解现实编程难题:研究揭示可靠性挑战

OpenAI 研究人员的最新研究显示,即使是顶尖的 AI 模型(如 GPT-4o 和 Claude 3.5 Sonnet)在处理未曾见过的现实编程问题时也表现不佳。研究使用了基于自由职业网站 Upwork 上逾 1400 道软件工程问题的新基准测试 SWE-Lancer,结果表明 Claude 3.5 Sonnet 表现相对较好,但其大部分答案仍是错误的。研究强调,大模型在可靠性方面仍需提升,才能被信任用于解决实际编程任务,与人类工程师相比仍有较大差距。 (arXiv:2502.12115)

(科技情报)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
[email protected]