ChatGPT / AI新闻聚合
2 天前
美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA
via
AI新闻资讯
(author: AI Base)
Telegraph
美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA
音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积,美团 LongCat 团队于今日正式发布并开源了 LongCat-AudioDiT(提供1B/3.5B 两个版本)。该模型通过在波形潜空间直接建模,成功刷新了零样本语音克隆的性能上限。
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]