阿里推出 Qwen3-Omni阿里巴巴通义千问团队发布 Qwen3-Omni，该模型能够同时处理文本、图像、音频与视频输入，并支持实时流式输出文本和语音

阿里推出 Qwen3-Omni

阿里巴巴通义千问团队发布 Qwen3-Omni，该模型能够同时处理文本、图像、音频与视频输入，并支持实时流式输出文本和语音。

官方介绍显示，Qwen3-Omni 在 36 项音频及音视频基准测试中夺得 32 项开源最佳、22 项总体最佳，在语音识别和指令跟随任务中与 Gemini-2.5-Pro 等闭源模型相当。文本与图像任务表现也在同尺寸开源模型中处于领先水平。

主要特点包括：

多语言支持：覆盖 119 种文本语言交互、19 种语音理解语言和 10 种语音生成语言。

低延迟交互：纯模型端到端音频对话延迟低至 211ms，视频对话延迟低至 507ms。

长音频理解：最长可处理 30 分钟音频。

架构设计：采用 Thinker-Talker + MoE，结合多码本自回归与 Code2Wav 技术实现流式生成。

开源策略：以 Apache-2.0 协议开源，已发布 Qwen3-Omni-30B-A3B 系列权重，并提供 Captioner 模型填补开源空白。

官方表示，未来将继续推进多说话人 ASR、视频 OCR 等方向，并加强函数调用和智能体工作流的支持。

来源：Qwen 官方博客

via LoopDNS资讯播报 - Telegram Channel