🚀 OpenBMB 开源 9B 多模态模型 MiniCPM-o 4.5,性能对标 Gemini 2.5 Flash

OpenBMB 正式开源 9B 参数规模的端侧多模态大模型 MiniCPM-o 4.5。该模型支持图像、视频、文本、音频的端到端输入与输出,具备全双工多模态直播能力,可实现“看、听、说”同步对话,并支持双语实时语音、音色配置及声音克隆。在 OpenCompass 视觉能力评测中,该模型获得 77.6 分,官方称其性能在同规模下超越 GPT-4o 与 Gemini 2.0 Pro,接近 Gemini 2.5 Flash。配套发布的还包括 llama.cpp-omni 推理框架与 WebRTC Demo。

(科技圈)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]