阿里发布 Qwen3-VL：视觉语言旗舰模型开源阿里巴巴通义团队正式推出 Qwen3-VL 系列，并率先开源 Qwen3-VL-235B-A22B，涵盖 Instruct 与 Thinking 两个版本

阿里发布 Qwen3-VL：视觉语言旗舰模型开源

阿里巴巴通义团队正式推出 Qwen3-VL 系列，并率先开源 Qwen3-VL-235B-A22B，涵盖 Instruct 与 Thinking 两个版本。官方称这是迄今最强的 Qwen 视觉语言模型。

核心亮点：

视觉智能体：可操作电脑和手机界面，识别按钮功能并完成任务，在 OS World 等基准测试上达顶尖水平。

纯文本与多模态兼优：文本理解与生成能力与同参数量的纯文本旗舰模型相当，不再“偏科”。

长上下文与视频理解：原生支持 256K token，可扩展至 100 万，能处理整本教材与小时级视频，并实现秒级事件定位。

空间与三维推理：2D 定位更精细，并新增 3D grounding，支撑复杂空间理解与具身应用。

视觉编程：支持从图像/视频生成 HTML、CSS、JS、Draw.io 代码，实现“所见即所得”。

多模态推理增强：Thinking 版在 STEM 与数学推理任务上表现突出，在 MathVision、MMMU 等评测中取得领先。

OCR 与识别升级：OCR 语言扩展至 32 种，在弱光、模糊、倾斜场景下表现更稳，可识别古籍字和专业术语，覆盖“万物识别”场景。

性能表现：

Instruct 版本在多项视觉感知评测上超越 Gemini 2.5 Pro 和 GPT-5。

Thinking 版本在多模态推理任务中达到开源 SOTA，在部分数学类评测上优于 Gemini 2.5 Pro。

架构更新：
采用 MRoPE-Interleave 与 DeepStack 技术，提升长视频推理与细粒度对齐；同时引入文本时间戳对齐机制，显著增强视频事件理解。

Qwen3-VL 以 Apache-2.0 协议开源，权重已发布至 GitHub 与 Hugging Face。官方表示，未来将继续强化多模态智能体、视频理解和跨语言能力。

来源：Qwen 官方博客

via LoopDNS资讯播报 - Telegram Channel