奥数金牌级推理!谷歌发布新版 Gemini 3 Deep Think:专为科研而生,性能直逼“人类最后考场”

大模型正从“聊天助手”进化为真正的“科学家”。2026年2月13日,谷歌正式宣布对 Gemini3Deep Think 深度思考大模型进行重磅升级。这款模型不再满足于日常对话,而是将目标锁定了科学、研究与工程等需要严密逻辑推理的高端领域。

科研“推理模式”:挑战无唯一解的难题

新版 Deep Think 是谷歌开发人员与顶尖科学家深度共创的成果,专门解决真实科研中的痛点:

应对复杂环境:针对边界模糊、不存在唯一标准答案、且数据杂乱不全的复杂问题进行了深度优化。

扩大开放范围:从2月12日起,Google AI Ultra订阅用户即可在应用中体验。

开发者尝鲜:谷歌首次通过 Gemini API 向部分研究人员和企业开放了“早期访问计划”。

战绩显赫:横扫奥赛与职业基准

在多项被公认为“地狱级难度”的测试中,Gemini3Deep Think交出了令人惊叹的答卷:

奥数金牌水平:在2025年国际数学奥林匹克(IMO)测试中达到金牌表现,物理与化学奥赛笔试同样斩获金牌级评价。

逼近人类极限:在“人类最后考试”(Humanity's Last Exam)中取得48.4% 的成绩。

编程天花板:在 Codeforces 竞赛编程基准上获得3455的 Elo 分值,展现出极强的算法与工程建模能力。

从“刷榜”到“落地”:实验室里的数字助手

谷歌强调,Deep Think 的研发初衷并非仅仅为了刷新基准测试数据,而是要真正进入实验室:

助力工程建模:帮助工程师通过代码对复杂的物理系统进行高精度建模。

深度数据分析:协助科研人员解释和挖掘庞大且零散的科学数据。

随着 Gemini3Deep Think 的全面介入,AI 正在从单纯的效率工具转型为科研创新的“合伙人”。

via AI新闻资讯 (author: AI Base)