💻 AI模型难解现实编程难题：研究揭示可靠性挑战OpenAI 研究人员的最新研究显示，即使是顶尖的 AI 模型（如 GPT-4o 和 Claude 3.5 Sonnet）在处理未曾见过的现实编程问题时也表现不佳

💻 AI模型难解现实编程难题：研究揭示可靠性挑战

OpenAI 研究人员的最新研究显示，即使是顶尖的 AI 模型（如 GPT-4o 和 Claude 3.5 Sonnet）在处理未曾见过的现实编程问题时也表现不佳。研究使用了基于自由职业网站 Upwork 上逾 1400 道软件工程问题的新基准测试 SWE-Lancer，结果表明 Claude 3.5 Sonnet 表现相对较好，但其大部分答案仍是错误的。研究强调，大模型在可靠性方面仍需提升，才能被信任用于解决实际编程任务，与人类工程师相比仍有较大差距。 (arXiv:2502.12115)

(科技情报)

via 茶馆 - Telegram Channel