https://api.oaibest.com - API中转2.8折起
阿里推出 Qwen3-Omni

阿里巴巴通义千问团队发布 Qwen3-Omni,该模型能够同时处理文本、图像、音频与视频输入,并支持实时流式输出文本和语音。

官方介绍显示,Qwen3-Omni 在 36 项音频及音视频基准测试中夺得 32 项开源最佳、22 项总体最佳,在语音识别和指令跟随任务中与 Gemini-2.5-Pro 等闭源模型相当。文本与图像任务表现也在同尺寸开源模型中处于领先水平。

主要特点包括:

多语言支持:覆盖 119 种文本语言交互、19 种语音理解语言和 10 种语音生成语言。

低延迟交互:纯模型端到端音频对话延迟低至 211ms,视频对话延迟低至 507ms。

长音频理解:最长可处理 30 分钟音频。

架构设计:采用 Thinker-Talker + MoE,结合多码本自回归与 Code2Wav 技术实现流式生成。

开源策略:以 Apache-2.0 协议开源,已发布 Qwen3-Omni-30B-A3B 系列权重,并提供 Captioner 模型填补开源空白。

官方表示,未来将继续推进多说话人 ASR、视频 OCR 等方向,并加强函数调用和智能体工作流的支持。

来源:Qwen 官方博客

via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]