科技圈🎗在花频道📮:
OpenAI升级语音转录及生成模型 OpenAI发布了新的文本转语音模型gpt-4o-mini-tts,和语音转文本模型gpt-4o-transcribe和gpt-4o-mini-transcribe。开发者现可通过自然语言指令控制语音合成效果,如指定特定风格,提升了语音的真实度和可控性。 新语音转录模型在处理口音、嘈杂环境及减少幻觉方面有显著提升。但对某些语言,错误率仍较高。OpenAI此次未开源这些模型,因其规模较大,不适合本地运行。 TechCrunch 📮投稿 ☘️频道 🌸聊天
OpenAI 发布 Realtime API 三款新语音模型
OpenAI 在 Realtime API 中推出三款新模型,旨在提升语音应用的推理能力与实时交互体验:
1. GPT-Realtime-2:首款具备 GPT-5 级推理能力的语音模型,上下文窗口由 32K 扩大至 128K,支持五档推理力度调节,显著提升了复杂指令遵循和工具调用的可靠性。
2. GPT-Realtime-Translate:实时语音翻译模型,支持 70 多种输入语言和 13 种输出语言,能在保持语速同步的同时处理方言与专业术语。
3. GPT-Realtime-Whisper:流式语音转文字模型,专为低延迟场景设计,适用于实时生成会议纪要、字幕或驱动语音助手持续理解。
GPT-Realtime-2 的输入与输出定价分别为每百万 token 32 美元和 64 美元;Translate 与 Whisper 按分钟计费,单价分别为 0.034 美元和 0.017 美元。
OpenAI
🌸在花频道 · 茶馆讨论 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel