xAI重磅发布Grok Voice Agent API:每分钟仅0.05美元,音频推理基准登顶第一!
xAI正式推出Grok Voice Agent API,为开发者开放实时语音交互能力。这一API基于Grok语音技术栈打造,已在移动应用和数百万Tesla车辆中服务海量用户,现向全球开发者全面开放。
极致性价比:每分钟仅0.05美元
Grok Voice Agent API以行业领先的成本效率脱颖而出,采用简单平价计费模式——每分钟连接时间仅0.05美元。这一定价显著低于主流竞品,帮助开发者以最低成本构建高性能语音应用。
音频推理基准排名第一
在权威音频推理基准Big Bench Audio上,Grok Voice Agent API位居第一。该API平均首音频响应时间不到1秒,比最接近的竞争对手快近5倍,展现出卓越的实时响应与推理能力。
核心能力一览
- 实时双向语音通信:支持流式音频输入输出,实现低延迟、自然对话体验。
- 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备原生级发音、口音和方言捕捉能力。
- 自动语言识别与切换:无需配置,即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
- 外部工具调用:轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络和X平台数据。
- 实时联网搜索与推理:在对话中即时查询信息并进行复杂推理。
- 情感提示控制语音:通过提示调节语音情感表达,提升交互自然度。
- 多种人声选择:提供多样化声音选项,包括Sal、Rex、Eve、Leo等经典角色,以及Mika、Valentin等伴侣型人格。
- 兼容OpenAI Realtime API规范:无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。
未来展望
xAI表示,该API将持续迭代,未来几周内将推出独立文本到语音(TTS)和语音到文本(STT)端点,以及进一步优化的音频模型,提升发音准确度和延迟表现。
via AI新闻资讯 (author: AI Base)
xAI正式推出Grok Voice Agent API,为开发者开放实时语音交互能力。这一API基于Grok语音技术栈打造,已在移动应用和数百万Tesla车辆中服务海量用户,现向全球开发者全面开放。
极致性价比:每分钟仅0.05美元
Grok Voice Agent API以行业领先的成本效率脱颖而出,采用简单平价计费模式——每分钟连接时间仅0.05美元。这一定价显著低于主流竞品,帮助开发者以最低成本构建高性能语音应用。
音频推理基准排名第一
在权威音频推理基准Big Bench Audio上,Grok Voice Agent API位居第一。该API平均首音频响应时间不到1秒,比最接近的竞争对手快近5倍,展现出卓越的实时响应与推理能力。
核心能力一览
- 实时双向语音通信:支持流式音频输入输出,实现低延迟、自然对话体验。
- 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备原生级发音、口音和方言捕捉能力。
- 自动语言识别与切换:无需配置,即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
- 外部工具调用:轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络和X平台数据。
- 实时联网搜索与推理:在对话中即时查询信息并进行复杂推理。
- 情感提示控制语音:通过提示调节语音情感表达,提升交互自然度。
- 多种人声选择:提供多样化声音选项,包括Sal、Rex、Eve、Leo等经典角色,以及Mika、Valentin等伴侣型人格。
- 兼容OpenAI Realtime API规范:无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。
未来展望
xAI表示,该API将持续迭代,未来几周内将推出独立文本到语音(TTS)和语音到文本(STT)端点,以及进一步优化的音频模型,提升发音准确度和延迟表现。
via AI新闻资讯 (author: AI Base)