💻 新基准测试AI在百万美元自由软件工程任务中的表现OpenAI发布了名为SWE-Lancer的新基准测试，旨在评估人工智能在实际软件工程任务中的能力

💻 新基准测试AI在百万美元自由软件工程任务中的表现

OpenAI发布了名为SWE-Lancer的新基准测试，旨在评估人工智能在实际软件工程任务中的能力。该基准包含超过1400个来自Upwork平台的真实世界任务，总价值高达100万美元。任务难度各异，从50美元的简单错误修复到3.2万美元的复杂功能实现，甚至包括管理决策。初步评估显示，目前最先进的AI模型在解决这些任务时仍面临挑战。为了促进相关研究，OpenAI还发布了统一的Docker镜像和公开评估数据集SWE-Lancer Diamond。此基准测试旨在推动人工智能在软件开发经济影响方面的研究。

(@OpenAI)

via 茶馆 - Telegram Channel