https://api.oaibest.com - API中转2.8折起
阿里发布 Qwen3-VL:视觉语言旗舰模型开源

阿里巴巴通义团队正式推出 Qwen3-VL 系列,并率先开源 Qwen3-VL-235B-A22B,涵盖 Instruct 与 Thinking 两个版本。官方称这是迄今最强的 Qwen 视觉语言模型。

核心亮点:

视觉智能体:可操作电脑和手机界面,识别按钮功能并完成任务,在 OS World 等基准测试上达顶尖水平。

纯文本与多模态兼优:文本理解与生成能力与同参数量的纯文本旗舰模型相当,不再“偏科”。

长上下文与视频理解:原生支持 256K token,可扩展至 100 万,能处理整本教材与小时级视频,并实现秒级事件定位。

空间与三维推理:2D 定位更精细,并新增 3D grounding,支撑复杂空间理解与具身应用。

视觉编程:支持从图像/视频生成 HTML、CSS、JS、Draw.io 代码,实现“所见即所得”。

多模态推理增强:Thinking 版在 STEM 与数学推理任务上表现突出,在 MathVision、MMMU 等评测中取得领先。

OCR 与识别升级:OCR 语言扩展至 32 种,在弱光、模糊、倾斜场景下表现更稳,可识别古籍字和专业术语,覆盖“万物识别”场景。

性能表现:

Instruct 版本在多项视觉感知评测上超越 Gemini 2.5 Pro 和 GPT-5。

Thinking 版本在多模态推理任务中达到开源 SOTA,在部分数学类评测上优于 Gemini 2.5 Pro。

架构更新:
采用 MRoPE-Interleave 与 DeepStack 技术,提升长视频推理与细粒度对齐;同时引入文本时间戳对齐机制,显著增强视频事件理解。

Qwen3-VL 以 Apache-2.0 协议开源,权重已发布至 GitHub 与 Hugging Face。官方表示,未来将继续强化多模态智能体、视频理解和跨语言能力。

来源:Qwen 官方博客

via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]