OpenBMB 开源 MiniCPM-o 4.5:9B 参数对标 Gemini 2.5 Flash,支持全双工多模态直播
OpenBMB 开源端侧多模态大模型 MiniCPM-o 4.5,总参数 9B,可同时接收图像、视频、文本、音频输入,并端到端输出文本和语音;其全双工多模态直播让输入与输出流互不阻塞,实现“看、听、说”同步对话,还支持双语实时语音、可配置音色与声音克隆。
官方称其视觉能力在 OpenCompass 取得 77.6 分,并在 9B 规模下超过 GPT-4o、Gemini 2.0 Pro,接近 Gemini 2.5 Flash;同时发布 llama.cpp-omni 推理框架与 WebRTC Demo。
OpenBMB
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel
OpenBMB 开源端侧多模态大模型 MiniCPM-o 4.5,总参数 9B,可同时接收图像、视频、文本、音频输入,并端到端输出文本和语音;其全双工多模态直播让输入与输出流互不阻塞,实现“看、听、说”同步对话,还支持双语实时语音、可配置音色与声音克隆。
官方称其视觉能力在 OpenCompass 取得 77.6 分,并在 9B 规模下超过 GPT-4o、Gemini 2.0 Pro,接近 Gemini 2.5 Flash;同时发布 llama.cpp-omni 推理框架与 WebRTC Demo。
OpenBMB
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel