🚀 Google 发布 Gemini 3 Flash 代理视觉功能,通过代码执行提升识别精度

Google 于 1 月 27 日推出 Gemini 3 Flash 的 Agentic Vision(代理视觉)功能。该技术通过结合视觉推理与 Python 代码执行,使模型具备自主规划、缩放、裁剪及标注图像的能力,将静态图像理解转变为主动调查过程,以获取更精准的视觉证据。测试显示,启用代码执行后,该模型在多数视觉基准测试中的表现提升了 5% 至 10%。目前,开发者可通过 Gemini API 接入该功能,Gemini 应用也已开始逐步推送。

(科技圈)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]