💻 新基准测试AI在百万美元自由软件工程任务中的表现

OpenAI发布了名为SWE-Lancer的新基准测试,旨在评估人工智能在实际软件工程任务中的能力。该基准包含超过1400个来自Upwork平台的真实世界任务,总价值高达100万美元。任务难度各异,从50美元的简单错误修复到3.2万美元的复杂功能实现,甚至包括管理决策。初步评估显示,目前最先进的AI模型在解决这些任务时仍面临挑战。为了促进相关研究,OpenAI还发布了统一的Docker镜像和公开评估数据集SWE-Lancer Diamond。此基准测试旨在推动人工智能在软件开发经济影响方面的研究。

(@OpenAI)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
[email protected]