https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
OpenAI收购科技行业播客节目《TBPN》

美国AI公司OpenAI宣布其已收购科技行业播客节目TBPN,该公司周四宣布。TBPN是一档由John Coogan 和 Jordi Hays主持的每日播客,涵盖科技新闻,并以对主要科技领袖的采访为特色,包括 Meta CEO 马克·扎克伯格、微软CEO萨提亚·纳德拉以及OpenAI联合创始人兼CEO萨姆·奥尔特曼。这一公告是在媒体消费更广泛的转变中发布的,因为来自像Joe Rogan 或 MrBeast等大腕的独立播客和创作者主导的视频日益吸引着数千万的观众。在该公告中,OpenAI的 AGI部署首席执行官Fidji Simo写道,他们实现AGI的使命伴随着一项责任,那就是为关于人工智能带来的变革进行建设性对话创造空间。

—— CNBC

via 风向旗参考快讯 - Telegram Channel
微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

近日,微软宣布推出全新的语音转文字模型 MAI-Transcribe-1,该模型在 25 种语言上的平均词错误率(WER)仅为 3.9%,被誉为目前全球最精准的转写模型。这是微软自研的 MAI 系列模型中的第三款,之前还发布了语音合成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2。

根据微软的介绍,MAI-Transcribe-1 在 FLEURS 行业标准基准测试中表现出色,尤其是在 25 种语言中,11 种 “核心语言” 如英语、法语、德语等的转写精度排名第一。这款模型不仅在多种语言的转写场景中表现优异,还在与 OpenAI 的 Whisper-large-v3 和 Google 的 Gemini 3.1 Flash 模型的对比中显示出明显优势。

MAI-Transcribe-1 适用于多语种的各种语音转写场景,包括会议记录、媒体内容转写等。尽管当前版本尚不支持实时转写、说话人分离等高级功能,微软计划在后续更新中增强这些能力。在性能方面,新模型在批量转写任务上速度领先,批处理转写速度达到了现有 Microsoft Azure Fast 产品的 2.5 倍。

此外,MAI-Transcribe-1 已通过 Microsoft Foundry 平台向企业和开发者开放,定价为每小时 0.36 美元,微软表示这是当前云服务提供商中 “性价比最高” 的语音转写模型之一。微软还宣布将 MAI-Image-2 和 MAI-Voice-1 引入 Foundry 平台,进一步增强其语音识别、语音合成和图像生成等多模态 AI 领域的自研能力,力求为开发者提供更具性能和成本优势的解决方案。

划重点:

📊 MAI-Transcribe-1 在 25 种语言上平均词错误率仅为 3.9%,为全球最精准转写模型。

🌍 模型在多种语言的核心转写场景中表现突出,并超越其他竞争对手。

💰 每小时收费 0.36 美元,使其成为云服务市场中性价比最高的语音转写模型之一。



via AI新闻资讯 (author: AI Base)
拒绝算力焦虑!苹果 LGTM 框架问世:让4K 级3D 渲染在 Vision Pro 上起飞

近日,苹果公司研究团队联合香港大学发表了名为《少用高斯函数,多用纹理:4K 前馈纹理飞溅》(Less Gaussians, More Textures:4K Feedforward Texture Splatting)的最新研究成果,推出了一项名为 LGTM 的全新技术框架。该技术旨在解决当前3D 高斯喷溅(3D Gaussian Splatting)在高分辨率下的计算瓶颈,为 Apple Vision Pro 等高像素显示设备的图形渲染开辟了新路径。

技术突破:几何与分辨率的“解耦”

目前主流的前馈3D 高斯喷溅技术虽然能快速将2D 图像转换为3D 场景,但随着渲染分辨率的提升,计算需求呈二次方爆炸式增长,导致4K 级别的实时渲染难以实现。

LGTM 框架的核心创新在于将几何复杂性与渲染分辨率解耦。它不再盲目增加高斯函数的数量,而是通过以下两步法提升画质:

1. 几何学习: 模型先从低分辨率图像中学习场景的基础结构,并与高分辨率真实图像(GT)对比,确保几何骨架在2K/4K 下无缝隙或瑕疵。
2. 纹理叠加: 引入专门的外观网络,将高分辨率图像中的精细细节转化为纹理,叠加在简单的几何形状之上。

赋能 Apple Vision Pro

Apple Vision Pro 的双眼显示屏拥有约2300万像素,单眼分辨率超过4K。传统的SPLAT等前馈模型在处理如此高密度的像素时往往性能受限。而 LGTM 能够升级现有系统(如 NoPoSplat、DepthSplat 等),使设备在保持低计算负载的同时,生成纹理更清晰、文本更锐利且更接近真实场景的沉浸式环境。

通过项目演示页面可以观察到,相比传统方法,LGTM 显著提升了前馈3D 重建的视觉上限,这预示着未来的 visionOS 用户有望在实时生成的虚拟空间中获得前所未有的逼真体验。

via AI新闻资讯 (author: AI Base)
谷歌拟建 933 兆瓦天然气电厂,以支撑庞大的 AI 数据中心运转

据媒体报道,支撑庞大的 AI 数据中心运转,谷歌正计划在美国得克萨斯州建设一座巨型天然气发电厂。这一举动引发了外界对于大型科技公司能否兑现“零碳”承诺的深度质疑。

核心规划:933 兆瓦“能源心脏”保障 AI 园区

此次合作的双方为谷歌与能源公司 Crusoe Energy,项目核心细节如下:

● 项目坐标: 位于得克萨斯州阿姆斯特朗县,专门为 Goodnight 数据中心园区供电。
● 装机容量: 计划建设容量约 933 兆瓦 的天然气发电厂。
● 建设进度: 许可申请已于今年 1 月提交,目前项目建设已经启动。

环保压力:年排碳 450 万吨,减排目标面临“脱轨”

尽管谷歌强调其整体目标仍是推动无碳能源发展,但数据中心的“电渴”已让排碳量亮起红灯:

● 排放预测: 该天然气电厂投入使用后,预计每年将排放约 450 万吨 二氧化碳。
● 激增数据: 受 AI 业务扩张驱动,谷歌目前的温室气体排放量较 2019 年已大幅增长约 48%

行业困局:科技巨头集体陷入“能源焦虑”

谷歌的选择并非孤例。随着人工智能对算力需求的爆炸式增长,清洁能源的增长速度已难以覆盖数据中心的电力缺口。

● 现状折中: 即使是长期标榜绿色能源的硅谷巨头,在面临“算力停摆”威胁时,也不得不重新向天然气等传统化石能源低头。
● 官方回应: 谷歌方面表示,虽然尚未签署正式购电合同且仍在推进风电合作,但在现阶段,稳定可靠的基荷电力仍是 AI 园区生存的刚需。

行业观察:算力竞赛背后的“碳代价”

当 AI 正在改变人类文明的效率时,它对物理世界的资源消耗也在达到惊人的量级。天然气电厂的接入,反映出科技公司在“商业扩张”与“社会责任”之间的艰难平衡。如何让 AI 真正变“绿”,不仅是算法的挑战,更是整个能源结构重塑的命题。

via AI新闻资讯 (author: AI Base)
我国首个原生物理 AI 个人开发者平台 ORCA Lab 正式发布

据媒体报道,由上海松应科技有限公司自主研发的 ORCA Lab 1.0 物理 AI 个人开发者平台 开发者版近日正式发布。这是我国首个专门面向个人开发者与轻量化团队的原生物理 AI 平台,标志着具身智能研发进入了“普惠化”时代。

核心突破:零代码、低成本、单机运行

针对当前具身智能产业化面临的高门槛、高成本瓶颈,ORCA Lab 1.0 实现了多项技术跨越:

● 轻量化运行: 突破了以往机器人训练对高性能算力集群的依赖,单人仅凭一台普通笔记本电脑即可流畅运行。
● 零代码流程: 提供全流程物理 AI 研发支撑,开发者无需编写复杂代码即可完成机器人的环境搭建与训练。
● 全生命周期覆盖: 涵盖了从机器人设计、仿真训练到真机部署的全流程,极大地缩短了研发周期。

研发理念:打破具身智能的“深水区”障碍

上海松应科技有限公司在研发该平台时,坚持“普惠化、轻量化、开放化”三大核心理念:

● 降低门槛: 让具身智能不再是头部大厂或顶尖实验室的“专利”,初学者也能快速上手。
● 降低成本: 通过高效的仿真技术,减少对昂贵物理实体的依赖与损耗。
● 开放生态: 平台提供开放的接口与支撑体系,鼓励开发者共建物理 AI 的应用生态。

行业观察:物理 AI 的“个人时代”降临

长期以来,物理 AI(Physical AI)由于涉及复杂的动力学模拟与海量计算,一直是 AI 领域最难啃的硬骨头之一。ORCA Lab 1.0 的问世,如同为物理 AI 领域提供了一套“集成开发环境”,让个人创意能够以极低的成本转化为真实的机器人行动力。

结语:让灵感在物理世界“动”起来

随着松应科技这一平台的发布,中国具身智能产业正迎来底层工具链的集体爆发。当每一个开发者都能在自己的笔记本上训练“数字孪生”机器人,具身智能的大规模商用或许就在不远处。

via AI新闻资讯 (author: AI Base)
商务部回应Meta收购Manus:支持跨国合作但须守法履程

4月2日,针对媒体关注的Meta收购人工智能初创企业Manus相关事宜,商务部新闻发言人何亚东在例行新闻发布会上做出正式回应。何亚东明确指出,中国政府一贯支持企业根据自身发展需要开展跨国经营与技术合作,但相关行为需严格遵守中国法律法规,并履行法定程序。

此前,Facebook母公司Meta被曝正积极推进对Manus的收购方案。这一动作被市场视为Meta致力于进一步加强其在通用人工智能(AGI)领域的战略布局,提升技术壁垒与市场竞争力。Manus作为专注于打造“首个能够自动化执行复杂任务的AI Agent”的创新企业,其核心技术资产对于正加速构建AI生态的科技巨头而言具有极高的吸引力。

via AI新闻资讯 (author: AI Base)
谷歌Vids集成 Veo3.1模型,支持文字提示词指挥 AI 虚拟形象互动

谷歌于4月2日宣布为其企业级视频创作应用 Vids 引入重大升级,通过集成 Veo3.1视频生成模型与自然语言交互技术,实现从静态生成向动态“指令控制”的跨越。 此次更新的核心在于赋予 AI 虚拟形象更强的交互能力,用户仅需输入简单的文字提示,即可指挥形象在场景中完成与产品、道具或设备的特定互动,且能在动态输出中保持角色视觉的一致性。

此外,Vids 进一步整合了多模态能力,在近期加入Lyria3系列音频模型的基础上,Veo3.1的接入支持生成8秒视频片段,并向普通用户及企业高级版账户分别提供每月10次至1000次不等的生成配额。

为打通工作流闭环,Google Vids新增了直接导出至 YouTube 的功能,并配合全新的 Chrome 录屏扩展程序,构建了从素材捕获到成品分发的全链路。

与此同时,人工智能领域的竞争态势正持续升级,微软于同日发布了 MAI 系列三款基础模型,涵盖25种语言的语音转录、音频生成及视频生成能力,旨在通过更低的成本门槛挑战谷歌与 OpenAI 的市场地位。

谷歌自2024年推出 Vids 以来,已迅速迭代了3D 卡通形象及多国语言支持。这种基于提示词的精细化控制功能,标志着 AI 视频工具正从简单的内容生成转向更具专业深度的自动化导演阶段,将进一步重塑企业内容生产的成本结构与创意边界。

via AI新闻资讯 (author: AI Base)
微软加速自研 AI 模型,力求在图文音频处理上领跑行业

微软公司正以前所未有的力度推进自研AI模型研发,旨在未来几年内构建起能与OpenAI和Anthropic并驾齐驱的前沿系统。微软AI负责人苏莱曼明确表示,公司的核心目标是打造行业内最尖端的模型。

根据最新披露的战略规划,微软计划在 2027 年之前,使其自研模型在文本、图像以及音频处理能力上达到世界领先水平。这意味着微软正试图打破过去在通用大模型领域对外部合作伙伴的长期依赖。

算力加持与自研模型初显成效

为了支撑这一宏大愿景,微软正在大规模部署英伟达最新的GB200 芯片集群。公司计划在未来的 12 至 18 个月内,将底层算力提升至全球最前沿的规模,为模型迭代提供坚实的硬件基础。

作为阶段性的成果,微软于 4 月 2 日发布了一款全新的语音转录模型。测试数据显示,在 25 种主流语言中,该模型有 11 种语言的表现已经超越了目前市场上的同类竞争产品。

摆脱协议束缚实现技术自主化

此前,微软在开发通用大模型时曾受到与OpenAI合作协议的诸多限制。但在去年协议调整并实现“松绑”后,微软内部已经扫清了自研障碍,全力转向技术自主化的轨道。

微软首席执行官纳德拉在内部会议中强调,未来三到五年内实现AI能力的自主化是集团的核心目标。这种战略调整预示着,微软将从AI技术的集成商转变为拥有核心自主能力的顶尖研发商。

via AI新闻资讯 (author: AI Base)
谷歌发布Gemma4 开源模型:采用Apache许可证彻底释放开发者生产力

谷歌正式推出了其新一代“开放”AI模型Gemma4。这一举动标志着谷歌在开源策略上的重大转向,旨在通过更宽松的协议吸引全球开发者。

与之前备受批评的限制性自定义许可证不同,Gemma4选择了业界公认的 Apache2.0许可证。这种转变意味着开发者可以更加自由地使用、修改和分发该模型,消除了以往商业化应用中的法律顾虑。

性能飞跃与生态兼容性双重升级

在技术架构上,Gemma4不仅继承了谷歌最前沿的 AI 研究成果,更在实际运行性能上实现了显著提升。根据官方发布的测试数据,该模型在多项基准测试中表现优异,能够处理更复杂的开发任务。

由于采用了与 Android 等产品相同的开源协议,Gemma4能够无缝融入现有的开发者生态系统。这种高度的兼容性极大地降低了技术门槛,使得中小型企业也能轻松部署高质量的 AI 解决方案。

via AI新闻资讯 (author: AI Base)
OpenAI 关停 Sora 后闪电收购播客巨头 TBPN,亲自下场“带节奏”

在 AI 视频赛道急流勇退后,OpenAI 正在开辟一条全新的“第二战线”。

据媒体报道,在正式关闭 Sora 视频应用仅一个月后,OpenAI 宣布完成对知名科技商业播客 TBPN 的收购。这一动作发生在 TBPN 刚刚完成对苹果高管 Eddy Cue 的重磅采访之后,时机选择耐人寻味。

战略转向:从“造工具”到“控渠道”

对于此次收购,OpenAI 高管 Fidji Simo 在内部备忘录中给出了直白的逻辑:

● 构建对话空间: 随着 AGI(通用人工智能)进程的推进,OpenAI 需要一个真实的平台来引导技术变革的讨论。
● 效率至上: 比起从零开始自建媒体,收购已经拥有庞大公信力和受众基础的 TBPN 显然更具效率。
● 跨界融合: TBPN 的主持人将直接加入 OpenAI 的市场与传播团队,利用其行业敏锐度创新 AI 技术的推广方式。

核心条款:编辑独立性是“生死线”

面对外界对“企业内宣”的质疑,OpenAI 明确承诺将保持 TBPN 的编辑独立性。

● 自主运营: 播客将继续独立选择嘉宾、决定节目走向并做出编辑决策。
● 保留公信力: 只有维持媒体的客观性,其作为“对话空间”的价值才不会缩水。

深度透视:Sora 败北后的“舆论护城河”

近期美媒揭秘称,Sora 的关停主因在于日均百万美元的巨额亏损以及用户数的腰斩。在视频生成工具暂时难以实现盈亏平衡的背景下,OpenAI 转身控制内容传播渠道,被行业解读为一种更深层的“权力防御”。

行业观察:AI 巨头的“媒体化”隐忧

OpenAI 此举标志着 AI 公司正在从纯粹的技术提供商向媒体平台演进。当掌握算法权力的巨头同时也掌握了话语权,如何确保其对 AGI 风险与变革的讨论不流于“自说自话”,将是监管层与公众面临的新挑战。

结语:AI 的下半场是“认知战”

关掉烧钱的Sora,买下赚钱且有影响力的播客,OpenAI 正在变得更加现实。在技术红利进入平台期时,谁能定义“科技的正确价值观”,谁就握住了下一个时代的入场券。

via AI新闻资讯 (author: AI Base)
Claude Code 源码泄露遭黑客“围猎”:GitHub 钓鱼陷阱正疯狂收割开发者

近日,由 Anthropic 公司开发的 AI 终端工具 Claude Code 遭遇了严重的次生安全危机。由于之前约 51.3 万行前端源码因人为失误被意外公开,黑客群体已迅速跟进并布置了大量钓鱼陷阱。

这些黑客在 GitHub 等技术社区建立了多个虚假代码仓库,试图利用开发者对泄露源码的好奇心实施攻击。安全机构监测显示,一名为 idbzoomh 的用户是其中的活跃分子,他通过提供所谓“解锁版”源码诱导下载。

虚假仓库背后的木马迷局

这些陷阱仓库往往打着“解锁企业级功能”或“完整泄露版”的旗号。一旦开发者信以为真并运行其中的程序,系统便会被悄然植入名为 Vidar 的信息窃取恶意软件。

Vidar 是一款在暗网中极为活跃的成熟木马,专门针对浏览器的敏感数据进行收割。除了基础的账号密码,它还会精准扫描并盗取用户的加密货币钱包以及各类隐私凭证。

持续迭代的隐蔽攻击手段

为了提高诱骗成功率,黑客甚至针对搜索引擎进行了优化,使虚假仓库在相关关键词搜索中排名靠前。这导致普通开发者在寻找官方文档或工具时,极易误触这些精心伪装的恶意链接。

攻击者还在系统中部署了 GhostSocks 代理工具,将受害者的设备变为潜在的攻击跳板。目前,这类虚假仓库的更新极其频繁,显示出黑客正在不断测试新的传播策略。

专家提醒广大技术人员,必须通过 Anthropic 的官方渠道获取开发工具。面对任何非官方的“破解版”或“泄露项目”,都应保持高度警惕,避免个人隐私与生产环境遭受毁灭性打击。

via AI新闻资讯 (author: AI Base)
全网警惕!Claude Code 源码泄露引发“次生灾害”:黑客布下 GitHub 钓鱼陷阱

据4月2日报道,由 Anthropic 人为失误导致的Claude Code 源码泄露事件仍在持续发酵。目前,已有黑客利用该热点在 GitHub 上通过虚假仓库传播名为 Vidar 的信息窃取恶意软件。

诱饵升级:声称“解锁企业级功能”

安全公司 Zscaler 的监测报告显示,一个名为 idbzoomh 的用户在 GitHub 上建立了多个虚假仓库。

● 精准钓鱼: 该黑客在仓库说明中声称提供“解锁企业功能”的泄露版源码,诱导急于尝鲜的开发者下载。
● SEO 优化: 为了扩大杀伤力,攻击者针对搜索引擎进行了关键词优化,导致用户在搜索“Claude Code 泄露”等关键词时,这些恶意仓库往往位居前列。

病毒画像:Vidar 潜入,数据“搬家”

用户一旦信以为真,下载并运行其中的可执行文件,系统将迅速沦陷:

● 信息窃密: 植入的 Vidar 是一款在暗网高度成熟的恶意软件,专门收割浏览器账号密码、加密货币钱包及各类敏感个人信息。
● 持久潜伏: 病毒还会同步部署 GhostSocks 代理工具,为后续的远程控制和数据回传架设秘密通道。

风险提示:警惕非官方渠道的“免费午餐”

安全研究人员指出,这些虚假仓库的恶意压缩包更新频率极高,极易绕过基础的安全检测。目前已发现至少两个手法相似的仓库,推测为同一攻击者在进行不同传播策略的测试。

行业观察:AI 安全的“连环套”

从Anthropic 源码打包失误,到黑客二次利用热点进行钓鱼,这起事件折射出 AI 时代安全风险的复杂性。当开发者群体成为攻击目标,基础的数字素养——不运行未知来源的二进制文件——依然是最后一道防火墙。

小编提醒广大开发者: 请务必通过Anthropic官方渠道获取工具,切勿因好奇或追求“破解功能”而掉入黑客精心设计的陷阱。

via AI新闻资讯 (author: AI Base)
谷歌正式发布 Gemma4开源大模型:涵盖四种规格,31B 版本位列全球开源榜单第三

北京时间4月3日凌晨,谷歌正式发布开源大模型 Gemma4,凭借“单位参数智能”的突破性提升,定义了开源模型辅助智能体工作流的新标准。

该系列包含高效版 E2B(2.3B)、E4B(4.5B)以及高性能版26B MoE 与31B 稠密模型。作为基于 Gemini3技术栈构建的最新成果,Gemma4全系支持多模态输入(图片与视频),其中 E2B 与 E4B 更是原生支持语音输入,实现了端侧实时的语音理解。

技术架构上,大参数模型通过优化实现了极高的硬件效率,31B 稠密版在 Arena AI 文本榜单中位列开源模型全球第三,26B MoE 版位居第六,其逻辑推理与函数调用能力足以驱动复杂的自主智能体。

在本地部署方面,Gemma4显著降低了前沿 AI 能力的准入门槛。31B 模型的非量化权重可运行于单块80GB H100显卡,量化版则兼容消费级显卡。针对移动端与 IoT 设备,E2B 和 E4B 模型通过创新的 PLE 嵌入技术与128K 长上下文支持,在 Raspberry Pi 及智能手机上实现了低延迟的逻辑处理。

此次发布不仅展示了谷歌在开源生态的深厚积淀,更通过 Apache2.0协议的开放姿态,为全球开发者提供了构建本地化、高隐私性 AI 应用的底座。

via AI新闻资讯 (author: AI Base)
ElevenLabs 推出 iOS 应用 ElevenMusic,正式进军 AI 音乐创作市场

语音人工智能巨头 ElevenLabs 于4月1日正式发布 iOS 应用 ElevenMusic,标志着该公司正式进军 AI 音乐创作与社交发现领域,直接参与 Suno 及 Udio 等平台的市场竞争。

作为其音频生态布局的核心环节,ElevenMusic 允许用户通过自然语言提示词生成定制化音乐,并支持调整曲目长度、歌词开关及艺术风格。除创作功能外,该应用深度整合了流媒体社交属性,提供实时电台、预设专辑及基于情绪维度的精选歌单,并设有排行榜与混音重塑功能。目前,应用采取“免费+订阅”模式:免费用户每日可生成7首作品,而月费9.99美元的专业版则提供每月500首的创作额度及500GB 存储空间。

此次产品发布折射出 ElevenLabs 抵御音频模型商品化风险、构建多元化媒介矩阵的战略意图。自今年2月以110亿美元估值完成 C 轮融资以来,该公司正加速从单一语音模型向全栈创意平台转型。基于去年8月推出的商业安全音乐模型,ElevenLabs 已在广告生成、配音、视频制作及版权分发等领域展开全面攻势。ElevenMusic 的上线不仅强化了其面向 C 端用户的粘性,更通过招募消费者营销人员及潜在的版税激励机制,试图在生成式音乐市场重塑创作者经济。

via AI新闻资讯 (author: AI Base)
Voice conversations not shown in sidebar

Apr 2, 23:16 UTC
Identified - The issue has been identified and a fix is being implemented.

via Claude Status - Incident History
Degraded Behavior for MCP Allowlist & Blocklist Features on 3.0

Apr 2, 18:53 UTC
Investigating - We are investigating this issue.

via Cursor Status - Incident History
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]