ChatGPT / AI新闻聚合
6 小时前
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0:多模态理解、图像编辑与语音生成全面提升
via
AI新闻资讯
(author: AI Base)
Telegraph
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0:多模态理解、图像编辑与语音生成全面提升
2月11日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini2.5Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni2.0也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级…
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]