↩️🖼 OpenAI 发布 Realtime API 三款新语音模型科技圈🎗在花频道📮:OpenAI升级语音转录及生成模型 OpenAI发布了新的文本转语音模型gpt-4o-mini-tts，和语音转文本模型gpt-4o-transcribe和gpt-4o-mini-transcribe

↩️🖼 OpenAI 发布 Realtime API 三款新语音模型

科技圈🎗在花频道📮:

OpenAI升级语音转录及生成模型 OpenAI发布了新的文本转语音模型gpt-4o-mini-tts，和语音转文本模型gpt-4o-transcribe和gpt-4o-mini-transcribe。开发者现可通过自然语言指令控制语音合成效果，如指定特定风格，提升了语音的真实度和可控性。新语音转录模型在处理口音、嘈杂环境及减少幻觉方面有显著提升。但对某些语言，错误率仍较高。OpenAI此次未开源这些模型，因其规模较大，不适合本地运行。 TechCrunch 📮投稿 ☘️频道 🌸聊天

OpenAI 发布 Realtime API 三款新语音模型

OpenAI 在 Realtime API 中推出三款新模型，旨在提升语音应用的推理能力与实时交互体验：

1. GPT-Realtime-2：首款具备 GPT-5 级推理能力的语音模型，上下文窗口由 32K 扩大至 128K，支持五档推理力度调节，显著提升了复杂指令遵循和工具调用的可靠性。
2. GPT-Realtime-Translate：实时语音翻译模型，支持 70 多种输入语言和 13 种输出语言，能在保持语速同步的同时处理方言与专业术语。
3. GPT-Realtime-Whisper：流式语音转文字模型，专为低延迟场景设计，适用于实时生成会议纪要、字幕或驱动语音助手持续理解。

GPT-Realtime-2 的输入与输出定价分别为每百万 token 32 美元和 64 美元；Translate 与 Whisper 按分钟计费，单价分别为 0.034 美元和 0.017 美元。

OpenAI

🌸在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel