https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
Elevated errors on Claude.ai

Mar 16, 12:01 UTC
Investigating - We are currently investigating this issue.

via Claude Status - Incident History
FSF 希望用户自由是 AI 公司版权诉讼的一个目标

2026-03-16 19:24 by 华龙之宫

Anthropic 从 Library Genesis 等影子图书馆下载了逾 700 万本书籍,它与图书作者和解了侵权诉讼,正联系相关图书的作者提供经济补偿。被收录在 Anthropic 图书数据库中的一本书是 Sam Williams 著的《Free as in freedom: Richard Stallman's crusade for free software》,该书由 O'Reilly 和 FSF 根据 GNU Free Documentation License (GNU FDL)许可证出版,GNU FDL 是一种自由许可证,无需付费即可用于任意目的。FSF 表示,它对经济补偿兴趣不大,如果其拥有版权的图书被 AI 公司用于训练大模型,那么它更希望获得的补偿是用户自由:AI 公司与用户共享完整的训练输入,完整的模型、训练配置设置和相应的软件源代码。

https://www.fsf.org/blogs/licensing/2026-anthropic-settlement

#GNU

via Solidot - Telegram Channel
↩️ 谷歌及亚马逊等八家科技巨头签署协议联手打击全球诈骗


科技圈🎗在花频道📮:

特朗普签署行政令 加强打击网络犯罪 特朗普 3 月 6 日签署行政令,要求政府部门加大力度打击网络欺诈、勒索等违法犯罪活动,重点针对跨国犯罪组织针对美国家庭、企业及关键基础设施实施的网络攻击行为。行政令提出,对现有技术、执法和监管手段进行全面审查,制定针对性行动计划,提升打击效率。 行政令同时要求司法部优先办理网络诈骗案件,并研究建立受害者补偿机制,利用依法扣押和没收的犯罪所得对受害者进行补偿。根据公开数据,2024 年美国消费者因网络欺诈损失超过 125 亿美元。相关部门已启动落实工作。 Bloomberg…

谷歌及亚马逊等八家科技巨头签署协议联手打击全球诈骗

谷歌、亚马逊、Meta、微软、OpenAI、Adobe、LinkedIn 及 Match Group 八家科技公司于奥地利联合国全球反欺诈峰会前夕,共同签署《在线服务反诈骗协议》。该协议旨在建立行业统一响应机制,通过共享威胁情报、加强与执法部门合作以及部署 AI 防御工具,共同应对跨国犯罪网络。根据协议,各公司将强化金融交易验证,并呼吁政府将防范诈骗列为国家优先事项。

尽管该协议属于自愿性质且缺乏强制惩罚措施,但参与方表示,此举将改变以往针对单一案件的零散协作模式,转向更系统化的防御策略共享。联邦调查局数据显示,2024 年消费者因诈骗损失超过 160 亿美元。目前,Meta 和 OpenAI 已率先推出相关安全功能,预计未来各平台将上线更多用户保护工具并推动更严格的行业监管。

Axios

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
拒当“电子保姆”!谷歌首度注资动画工作室 Animaj:要用 AI 铁拳痛击“AI 垃圾内容”

在 YouTube 的儿童内容专区,一场关于“高质量”与“低质垃圾”的生存战正式打响。近日,谷歌宣布向主打 AI 技术的低龄儿童动画工作室 Animaj 投资 100 万美元。这笔交易极具象征意义,因为它是YouTube首次直接出纳资金,在全球范围内投资一家儿童内容工作室。

作为低龄儿童内容的巨头,Animaj 旗下的频道在去年已经创造了超过 220 亿次 的惊人播放量。此次谷歌不仅带来了真金白银,还向其提前开放了未发布的最新版 AI 模型,旨在通过顶尖的技术支持,帮助其定制化开发 AI 工具,从而实现高品质内容的规模化生产。

谷歌此次破例出手的背后,是对平台上愈演愈烈的“AI 垃圾内容”的重拳反击。目前,YouTube 上充斥着大量利用低端 AI 粗制滥造的儿童视频,这些内容不仅逻辑崩坏、画质低劣,更引发了家长与儿童专家的深度焦虑。

YouTube 计划通过此次押注,扶持像 Animaj 这样能够利用 AI 提升艺术质量而非降低成本底线的公司。这不仅是一次商业布局,更是谷歌治理内容生态的信号:AI 应该是创造精品的画笔,而非制造数字垃圾的复印机。当“AI 动画正规军”获得官方算力加持,那些污染孩子视线的垃圾视频,或许离被清算的日子不远了。

via AI新闻资讯 (author: AI Base)
视频号要有对手了?OpenAI 计划将 Sora 接入 ChatGPT:Disney 角色或成付费杀手锏

为了重新点燃用户的互动热情,OpenAI正准备祭出一记重锤。据最新消息,这家 AI 巨头计划将旗下的视频生成模型 Sora 直接接入其旗舰聊天机器人 ChatGPT。这一战略转向旨在利用ChatGPT庞大的活跃用户群,为Sora注入新的活力。

事实上,独立版 Sora 应用在 2025 年 9 月上线之初曾引发全网轰动,但由于近期在生成视频的类型和数量上限制较多,其热度已出现明显下滑。此次接入ChatGPT,被视为OpenAI追赶竞品进度、抢夺 AI 内容创作者市场的关键一步。即便整合完成,官方仍计划保留独立版应用的运营,以满足不同层级的用户需求。

然而,将资源消耗巨大的视频生成器塞进聊天机器人,对OpenAI来说无异于一场“烧钱大战”。为了对冲高昂的算力开支,公司预计将探索类似于独立应用的积分变现机制。更令人期待的是,OpenAI或将解锁高级付费功能——得益于此前 Disney 10 亿美元的注资,用户未来可能获准在视频中使用授权的 Disney 经典角色进行二次创作。

从推出 ChatGPT 浏览器 Atlas 到研发 AI 音乐生成器,OpenAI正在加速构建其全媒体创作版图。当Sora这种影视级的视频生产力工具变成ChatGPT对话框里的一个插件,大众创作的门槛将被再次暴力拆除。

via AI新闻资讯 (author: AI Base)
5 万只“阶跃龙虾”抢购一空,阶跃星辰紧急追加补货

国内大模型新锐阶跃星辰今日宣布,其推出的本地 AI 智能体“阶跃龙虾”(StepClaw)自上线以来热度远超预期。首批开放的5万个云端一键部署名额已在短时间内被抢购一空。为了回馈用户的热情支持,官方决定立即追加20000个免费领养名额。

StepClaw 作为一款主打“24小时在线、具备深度记忆与搜索能力”的赛博助手,凭借其便捷的云端部署体验受到了大量开发者和 AI 爱好者的青睐。不少用户在社交媒体分享称,该智能体在处理长上下文、理解用户心意以及执行复杂搜索任务方面表现出色。

此次追加的名额将延续此前的“顶配”福利方案:

● 资源全包:提供5000万 Step3.5Flash 模型 Token。
● 零成本体验:包含云服务器及存储费用,用户可免费使用一个月。
● 门槛极低:支持通过阶跃 AI 网页版或手机 APP 实现“一键部署”,无需复杂的本地配置环境。

目前,一键部署功能已同步恢复上线,采取“先到先得”原则。对于此前因名额售罄而未能体验的用户,这无疑是接入这款高性能本地化 AI 智能体的绝佳机会。阶跃星辰表示,将持续优化 StepClaw 的交互体验,致力于让 AI 真正成为个人用户触手可及的数字生产力工具。

via AI新闻资讯 (author: AI Base)
月之暗面发布 Attention Residuals 技术,48B 模型训练效率提升 1.25 倍

月之暗面(Moonshot AI)推出 Attention Residuals 技术,对 Transformer 架构进行改进,使每一层能够选择性地关注此前各层的输出,而非统一求和。该技术已应用于其 48B 参数的 Kimi Linear 模型,其达到相同性能所需的算力比基线少约 20%,同时在 GPQA-Diamond 推理基准上提升 7.5 分,编程与数学能力亦有所提升。

据论文介绍,该技术训练额外开销低于 4%,推理延迟增加不超过 2%,并通过改善梯度流缓解了"PreNorm 稀释"问题。前 OpenAI 研究科学家 Andrej Karpathy 对此给予正面评价,称其更字面地践行了"Attention is All You Need"的理念。

月之暗面

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
上海发布生成式 AI 服务备案公告:全市累计备案模型达 150 款

据“网信上海”今日消息,上海市网信办发布了最新一批生成式人工智能服务备案信息公告。公告显示,截至2026年3月16日,上海市本月新增1款已完成备案的生成式 AI 服务,全市累计完成备案的服务数量已达到150款。

此次备案工作是上海市网信办会同相关部门,严格按照《生成式人工智能服务管理暂行办法》要求有序开展的。除了直接的备案管理,上海市还对通过 API 等方式调用已备案模型、且面向公众提供具有舆论属性或社会动员能力的服务,同步开展了登记工作,旨在进一步规范 AI 技术的创新应用。

根据管理要求,已上线的生成式 AI 应用或功能必须履行合规义务。相关产品需在显著位置或详情页面公示所使用的备案服务信息,明确标注模型名称及备案号。同时,开发者必须严格遵循《人工智能生成合成内容标识办法》,对 AI 生成的合成内容添加明显标识,以保障用户的知情权。

上海市网信办表示,将持续推动上海人工智能创新发展高地的建设,在确保规范应用的前提下,助力生成式 AI 领域取得更多突破。这一系列备案与登记举措,标志着上海在平衡 AI 产业活力与监管合规方面正迈向更成熟的阶段。

via AI新闻资讯 (author: AI Base)
打击“AI 垃圾视频”:谷歌首次直接投资儿童动画工作室 Animaj

谷歌近日向 AI 动画工作室 Animaj 投资了 100 万美元。虽然这笔资金在风投领域规模较小,但其意义非凡——这是 YouTube 首次对儿童内容工作室进行直接投资。此次行动被视为谷歌正式向“AI 垃圾内容”宣战的重要信号。

所谓“AI 垃圾内容”,是指利用生成式 AI 批量制造、缺乏实质内涵和教育价值的低质视频。随着越来越多的创作者利用 AI 牟利,YouTube 平台上的婴幼儿用户正面临被海量粗制滥造内容淹没的风险。Animaj 的愿景则是利用 AI 技术提升创作效率,同时确保内容的高质量与教育性。

作为合作的一部分,谷歌将向 Animaj 开放尚未外发的 Veo、Gemini 及 Imagen 等新版 AI 模型,并由 Google DeepMind 提供技术支持。Animaj 联合创始人表示,这笔投资具有象征意义,证明了 YouTube 正押注那些能够平衡技术应用与内容品质的专业机构,以重塑儿童媒体生态。

YouTube 首席执行官尼尔·莫汉曾明确表示,治理 AI 垃圾内容是 2026 年的首要任务。除了扶持优质工作室,谷歌还在扩大其人脸检测工具的使用范围,帮助各界人士下架未经授权的 AI 生成肖像视频。这场关于 AI 内容质量的“保卫战”,将决定未来一代人在数字世界中的成长环境。

via AI新闻资讯 (author: AI Base)
阿里通义发布 Fun-CineForge:开源影视级配音大模型,攻克音画同步难题

阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点,并同步开放了高质量数据集构建方法。

在技术架构上,Fun-CineForge 首次引入了“时间模态”概念。不同于传统模型仅关注文本或视觉信息,该模型通过精准的时间戳控制,确保语音在正确的时间区间内合成。即便在画面中人物被遮挡、镜头频繁切换或面部模糊的复杂影视场景下,模型依然能实现极高的音画同步率和指令遵循能力。

配套开源的 CineDub 数据集构建流程则是另一大亮点。通义实验室利用大模型思维链技术,将原始影视素材自动化转化为结构化数据,大幅降低了人工标注成本。数据显示,该流程将中英文字错率降低至1% 左右,说话人分离错误率仅为1.20%,为大模型提供了极具竞争力的训练基石。

目前,Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线,支持30秒以内的短视频片段推理。它不仅在单人独白场景下表现优异,还率先实现了对双人及多人对话场景的专业级支持。这一突破标志着 AI 语音技术正从基础的客服、助手场景,向高标准的动漫、影视后期制作领域迈进。

GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

via AI新闻资讯 (author: AI Base)
地瓜机器人完成1.2亿美元B1轮融资,加速具身智能软硬件全栈研发

近日,具身智能计算基础设施领军企业地瓜机器人宣布完成1.2亿美元B1轮融资,此举标志着其在机器人全栈软硬件技术研发与产品迭代上进入加速阶段。

本轮融资由Synstellation Capital、滴滴、美团龙珠等头部产业资本领投,并吸引了北汽产投、九坤创投、芯联资本等多家战略及财务机构跟投,老股东高瓴创投、淡马锡旗下Vertex Growth、五源资本等悉数超额增持。自2025年完成A轮融资以来,公司在短短一年内累计融资额已达2.2亿美元(约合人民币15.17亿元),展现了资本市场对其“机器人界英伟达”定位的高度认可。

脱胎于地平线机器人事业部并于2024年独立运作的地瓜机器人,目前已构建起覆盖芯片、算法到软件的完善产品体系,算力布局跨越5至560TOPS,精准切入人形机器人、四足机器狗、物流AMR等多元化场景。通过与云鲸、影石Insta360、维他动力等行业头部客户的深度量产合作,地瓜机器人正纵向打通从前沿技术创新到大规模量产的链条。

在全球具身智能技术代际跃升的关键期,地瓜机器人致力于成为机器人时代的“Wintel”,其持续增强的端侧计算能力将为机器人规模化普及提供核心动力,进一步夯实全球机器人产业链的底层支撑基石。

via AI新闻资讯 (author: AI Base)
Anthropic 推出 Claude 认证架构师基础考试,早期访问阶段合作伙伴员工可免费参考

Anthropic 面向合作伙伴推出「Claude 认证架构师——基础」(CCA-F)认证考试,定位 301 级技术从业者,要求具备 Claude Agent SDK、Claude Code、Anthropic API 及 MCP 的实际开发经验。考试共 60 道题,涵盖五大核心能力领域,从六个生产场景中随机抽取四个作为考题背景,仅限一次作答机会,由 ProctorFree 提供在线监考;早期访问阶段前 5,000 名合作伙伴员工可免费参考,此后定价 99 美元,通过者将获得可在 LinkedIn 分享的 CCA-F 徽章。

Anthropic Courses

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
香港用户终于等到你!谷歌逐步解锁 Gemini 网页版:生成图像、音乐全开放

在经历了漫长的等待后,香港用户终于要和谷歌最强 AI 助手正面“握手”了。据有线新闻今日报道,谷歌 (Google) 已开始逐步向香港特别行政区用户开放其大语言模型 Gemini 的网页版应用。

作为谷歌倾力打造的多模态 AI,Gemini 此前因种种原因一直未对香港个人用户直接开放登录。此次“解锁”意味着,全港用户将能直接体验到这款集文字处理、图像生成、语音交互及复杂数据分析于一体的顶尖生产力工具。

根据谷歌方面的官方计划,本次开放将分阶段进行:

第一阶段: 逐步覆盖全港用户的网页端使用权限。

第二阶段: 未来将进一步涵盖 Gemini App 移动应用程序,让用户在手机上也能随时调用 AI 能力。

目前,香港用户可以使用 Gemini 处理日常办公琐事,或利用其多模态能力生成创意图像、多媒体内容以及编写音乐。虽然谷歌尚未透露此次开放的模型是否包含最新的 Gemini1.5Pro 系列,但这一举措无疑极大降低了香港开发者与创意工作者的技术门槛。

值得注意的是,随着Gemini的正式进场,香港市场的 AI 竞争格局将愈发白热化。此前,央视3·15晚会刚曝光了 AI 大模型被投毒的产业链,这提醒用户在享受谷歌带来的技术红利时,仍需保持对 AI 生成内容的审慎判别。当全球顶尖 AI 真正融入维港的日常生活,香港的数智化进程或将迎来新的加速点。

via AI新闻资讯 (author: AI Base)
通义开源首个影视级配音大模型:AI 终于学会了“有感情地说话”

在 AIGC 横扫图像与文字领域后,影视行业的最后一个“人工堡垒”——配音,正在被阿里通义实验室攻破。3月16日,通义实验室正式发布并开源了全球首个支持影视级、多场景配音的多模态大模型 Fun-CineForge

长期以来,AI 配音始终难以撕掉“机械感”和“播音腔”的标签。尤其在影视剧场景中,角色的情感爆发、环境音的杂糅以及口型同步,一直是 AI 难以逾越的鸿沟。而Fun-CineForge的出现,正是为了终结这一难题。

这款大模型采用了革命性的“数据+模型”一体化设计。除了模型本身,通义实验室还配套开放了一套高质量数据集的构建方法。这意味着,AI 不再是简单地读取文本,而是能够深度理解影视剧中的复杂语境,还原出细腻的情感起伏和多场景下的空间音效。

作为阿里通义家族的新成员,Fun-CineForge的开源属性极具杀伤力。它不仅为视频创作者提供了一个“影视级”的后期工具,更通过技术下放,让中短剧甚至个人创作者也能以极低成本完成高质量的跨语言译制。

从去年发布的Qwen3-Omni到如今的Fun-CineForge,通义系列正加速补齐多模态拼图的最后一块。当 AI 真正学会了“像人一样演戏”,影视翻译和后期制作的逻辑,或许将从此被彻底重写。目前,该模型及其数据集构建方案已在相关开源平台上线,这波“影视级 AI”的普及风暴,比我们想象中来得更快。

via AI新闻资讯 (author: AI Base)
拒绝“套壳”:谷歌与 Accel 印度加速器从 4000 份申请中选出 5 家硬核初创公司

在审查了旗下印度人工智能加速器项目的 4000 多份申请后,谷歌与风险投资公司 Accel 正式公布了入选的 5 家初创企业。值得关注的是,尽管“人工智能封装器(Wrapper)”类的创意在申请中占据了绝大多数,但最终入选的名单中没有一家属于此类肤浅的“套壳”项目。

Accel 合伙人 Prayank Swaroop 表示,约 70% 的被拒申请仅仅是在现有模型之上叠加了一个简单的聊天机器人界面,而未能利用 AI 重新构思新的工作流程。此外,营销自动化和招聘工具等竞争过度、缺乏创新的领域也是被拒绝的重灾区。投资者目前更倾向于支持那些能够解决深层行业痛点、具备独特技术壁垒的企业。

此次入选的 5 家初创公司展现了极强的行业针对性,涵盖了从生命科学到工业自动化的多个前沿领域:

● K-Dense:开发 AI “副科学家”,旨在加速生物化学等领域的科研进程。
● Dodge.ai:为企业 ERP 系统打造自主智能体。
● Persistence Labs:专注于呼叫中心运营的语音 AI 技术。
● Zingroll:构建 AI 生成影视剧内容的平台。
● Level Plane:将 AI 应用于航空航天及汽车制造的工业自动化。

这些入选者将获得最高 200 万美元的资金支持,以及谷歌提供的 35 万美元计算资源。谷歌表示,该项目并不限制初创公司仅使用谷歌的模型,其核心目标是观察 AI 在现实复杂场景中的表现,并将相关反馈作为“飞轮”回馈给 Google DeepMind 团队,以推动未来模型的迭代升级。

via AI新闻资讯 (author: AI Base)
旧金山地下机器人格斗俱乐部:AI让人形机器人走向致命竞技

【AIbase】旧金山正在兴起一种新型地下娱乐——人形机器人格斗俱乐部。钢铁笼中,人形机器人在VR飞行员的远程操控下激烈对战,观众呐喊助威。这一奇特景象背后,是中国制造的硬件、美国搭建的竞技舞台,以及AI赋予机器人的致命能力。

地下机器人格斗:科技与娱乐的碰撞

据科技作家Ashlee Vance转发的报道,旧金山的地下机器人格斗俱乐部正在成为科技爱好者和极客们的新聚集地。在这些秘密举办的活动中,人形机器人被关在钢铁笼中进行激烈对抗。操控这些机器人的不是现场的操作员,而是通过VR设备进行远程操控的"飞行员"。

现场观众可以近距离观看这些机器人的对抗,感受金属碰撞的震撼。这种将高科技与娱乐 spectacle 结合的形式,正在吸引越来越多的关注。

中国制造,美国舞台

报道中特别提到,这些参与格斗的人形机器人硬件大多来自中国制造商。中国在人形机器人硬件制造领域的快速发展,为这些地下格斗俱乐部提供了坚实的技术基础。而美国则提供了展示这些技术的舞台和观众群体。

这种"中国制造硬件,美国搭建舞台"的模式,反映了全球AI和机器人产业链的协作与分工。

AI赋予致命能力

AI技术在这些机器人格斗中扮演着关键角色。通过AI算法,这些机器人能够做出更加灵活和精准的动作,让对抗更具观赏性。报道中提到"AI makes them lethal",暗示AI技术让这些机器人在格斗中展现出惊人的能力。

VR远程操控与AI自主决策的结合,代表了人机协作的新方向。操控者可以通过VR设备身临其境地感受机器人的视角,而AI则负责处理复杂的运动控制。

科技伦理与未来展望

虽然目前的机器人格斗更多是一种娱乐形式,但它也引发了关于AI和机器人技术应用的讨论。随着人形机器人技术的不断进步,类似的竞技活动可能会变得更加普遍。

科技作家Ashlee Vance对这一话题的关注,也反映了科技界对AI和机器人技术发展趋势的持续关注。

(本文综合X@ashleevance、X@jeffs2009等媒体报道)

via AI新闻资讯 (author: AI Base)
高效轻量化:IBM 发布 Granite 4.0 1B Speech 多模态语音大模型

IBM 近日正式推出了 Granite4.01B Speech。这是一款专为边缘计算和企业级部署设计的紧凑型语音语言模型,旨在提供高效率的多语种自动语音识别(ASR)与双向自动语音翻译(AST)能力。

与前代版本相比,Granite4.01B Speech 的参数量仅为上一代模型的一半,但在性能上实现了显著跃升。新模型不仅增加了对日语 ASR 的支持,还引入了关键词偏置功能,并大幅提升了英文转录的准确率。其核心设计目标是在不牺牲核心能力的前提下,极大地降低内存占用、推理延迟和计算成本。

该模型采用了创新的“两阶段设计”架构。系统首先将音频转换为文本,随后通过专门的 Granite 语言模型进行推理处理。这种模块化设计允许开发者根据需求灵活编排流程。目前,该模型已支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语种互译,并能处理英语对中文(普通话)的翻译任务。

在性能测试中,Granite4.01B Speech 表现出色,位居 OpenASR 排行榜首位,平均字错率(WER)仅为5.52。目前,IBM 已根据 Apache2.0协议正式开源该模型,开发者可通过 Transformers 或 vLLM 等主流框架进行本地部署,为资源受限的移动端或边缘设备提供强劲的 AI 语音支持。

项目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech

via AI新闻资讯 (author: AI Base)
影视配音进入AI时代:通义实验室开源Fun-CineForge,首克多人对话难题

传统的 AI 配音在面对影视、动画等高标准场景时,常因难以匹配复杂的情绪爆发和精准口型而遭遇瓶颈。针对这一痛点,通义实验室正式发布并开源了首个影视级多场景配音多模态大模型——Fun-CineForge。

突破“声画脱节”:四大严苛维度的协同

不同于仅依赖文字转语音的传统模型,Fun-CineForge 旨在攻克影视制作中的四大核心挑战:

● 口型同步: 实现合成语音与画面唇部运动的高度一致。
● 情绪表达: 结合面部形象与指令描述,赋予声音拟人化的情感深度。
● 音色一致性: 在复杂的多角色对话中保持特定人物的音色稳定。
● 时间对齐: 即使说话人被遮挡或不在画内,语音也能在毫秒级精确的时间点切入。

核心技术:引入“时间模态”与高质量数据集

Fun-CineForge 的技术突破在于其独有的 “数据+模型”一体化设计:

1. CineDub 高质量数据集: 通义实验室配套开源了 CineDub 自动化数据集构建流程。该流程利用思维链纠错机制,将中英文文本转录错率降至 1% -2% 左右,说话人分离错误率大幅降至 1.2%
2. 四模态融合架构: 模型首次引入 “时间模态”,配合视觉(唇形表情)、文本(台词情感)和音频(音色参考)共同建模。这使得模型即便在“看不到”人脸的复杂场景下,也能依靠时间监督目标实现精准同步。

表现卓越:填补多人对话配音空白

实验数据显示,Fun-CineForge 在词错率(WER/CER)、唇部同步度(LSE-C/D)及音色相似度上均显著优于 DeepDubber-V1等基线模型。尤其值得关注的是,该模型首次实现了对双人及多人对话场景的精准支持,在30秒以内的视频片段中表现出极强的鲁棒性。

● GitHub:https://github.com/FunAudioLLM/FunCineForge
● HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
● ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]