https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
英伟达 GB200 NVL72 性能惊人,超越 AMD MI355X 达 28 倍

在最新发布的 SemiAnalysis InferenceMAX 基准测试中,Signal65 分析了 Deepseek-R1 0528 混合专家(MoE)模型的推理表现,结果显示英伟达(NVIDIA)的 GB200 NVL72 机架系统在性能上大幅领先于同规模的 AMD Instinct MI355X 集群。混合专家模型的特点在于能够根据任务类型激活最适合的 “专家” 进行处理,这种设计提高了效率,但在大规模扩展时可能导致节点之间的通信延迟和带宽压力,成为计算瓶颈。

英伟达通过 “极致协同设计” 策略,优化了 GB200 NVL72 的架构。该系统通过紧密互联 72 颗芯片,并配备高达 30TB 的共享内存,显著提升了数据传输效率,解决了延迟问题。根据测试数据,GB200 NVL72 在相似配置下的每个 GPU 吞吐量高达 75 tokens / 秒,其性能是 AMD MI355X 的 28 倍。

对于超大规模云计算公司而言,整体拥有成本(TCO)是非常重要的考量指标。Signal65 结合 Oracle 云定价数据指出,GB200 NVL72 不仅性能强劲,成本效益也令人瞩目。其每 token 的相对成本仅为 AMD 方案的十五分之一,并且提供了更高的交互速率。

尽管英伟达在混合专家模型领域占据主导地位,AMD 仍有其竞争优势。报告指出,AMD 的 MI355X 凭借高容量的 HBM3e 内存,在稠密模型环境中仍然是一个具备竞争力的选项。目前,AMD 尚未推出新的机架级解决方案来应对 GB200 NVL72 的挑战。然而,随着 AMD Helios 平台与英伟达 Vera Rubin 平台的竞争逐渐白热化,未来在机架级扩展方案上的较量将更加激烈。

划重点:

🟢 英伟达 GB200 NVL72 的性能是 AMD MI355X 的 28 倍,显著领先。

🟢 GB200 NVL72 通过优化架构和高速共享内存解决了数据传输延迟问题。

🟢 尽管英伟达占据优势,AMD 仍在稠密模型领域具有竞争力,未来竞争将更加激烈。


via AI新闻资讯 (author: AI Base)
🛡️ 马来西亚通讯及多媒体委员会将传召X平台代表 调查Grok AI生成深度伪造照片事件

马来西亚通讯及多媒体委员会(MCMC)于1月3日表示,将传召社交平台X的代表,就其人工智能机器人Grok生成的深度伪造照片事件展开调查。此前有报道称,部分用户利用该AI工具对女性照片进行数字化篡改,移除衣物或头巾,涉嫌侵犯隐私及制造猥亵内容。目前,委员会正联合警方追踪涉案用户,并评估X平台防范AI滥用的管控措施。当局重申将严厉打击分发淫秽内容的违法行为,并呼吁公众举报相关违规信息,以维护网络安全环境。

(科技圈)

via 茶馆 - Telegram Channel
苹果回应“AI 功能疑似阉割”:切勿通过第三方绕开限制,警惕账号风险

针对近日社交平台流传的“苹果 AI 国行版开启灰度测试”传闻,苹果官方给出了正式回应。此前有博主称,部分国行设备已可在设置中激活“Apple 智能与 AI”功能,并在下载完成后新增“图乐园”App。更有网友反馈称,测试中的 AI 回答疑似基于百度搜索结果,功能体验存在简化。

苹果公司技术顾问在接受采访时明确表示,截至目前 Apple 智能(Apple Intelligence)尚未在国行版本正式上线,一切后续进展均以官网公告为准。苹果方面特别强调,Apple 智能对硬件性能有极高要求,预计仅 iPhone15Pro 及更新机型才能兼容。针对部分旧机型(如 iPhone15)无法适配的问题,技术顾问指出其硬件规格尚不足以支撑复杂的 AI 算法。

同时,针对市场上流传的通过第三方软件强行开启 AI 功能的“攻略”,苹果官方发出安全警示:此类操作不仅绕开了系统限制,更可能对用户的资金和账号安全造成潜在风险。此前,多家媒体曾报道苹果正与百度、阿里巴巴等国内科技巨头商讨 AI 服务的本地化合作,但具体的落地形式与上线时间仍处于待定状态。

via AI新闻资讯 (author: AI Base)
谷歌 DeepMind 预测:2026年 AI 将迈入持续学习新时代

近日,谷歌 DeepMind 的研究员发布了震撼的预测,认为2026年将成为 AI 发展的重要转折点,持续学习技术将全面实现。持续学习是指 AI 能够在不间断的情况下,自主吸收新知识并进行改进,这被认为是 AI 自我提升的核心要素。

据悉,谷歌内部的持续学习技术已经取得了初步成果。去年,谷歌团队在 NeurIPS2025大会上提出了 “嵌套化方法”,显著提升了大语言模型(LLM)的上下文处理能力,并使其具备持续学习的能力。DeepMind 的研究显示,持续学习不仅仅是 AI 进化的一个步骤,更是未来 AI 能否在各领域独立研究和编程的关键。

在接下来的几年中,AI 的持续学习能力将不断显现,Anthropic 公司的 CEO Dario Amodei 也表示,2026年将会是这一技术实用化的重要时刻。最近,有工程师分享了他们使用 AI 工具 Claude Code 进行编码的经历,表示 AI 已经能够自动生成代码,程序员的干预需求大幅减少。

随着 AI 技术的不断进步,预测显示到2030年,全自动编程将会成为现实,这意味着 AI 将能够完全取代人类程序员,迅速完成编码任务。同时,研究人员也探讨了未来的智能爆炸阶段,当 AI 研发完全自动化后,AI 可能会以更快的速度进行自我提升,最终进入超智能时代。

根据《自然》杂志的最新展望,预计到2050年,AI 系统可能会成为诺贝尔奖级研究的主力军,彻底改变科学研究的方式。专家认为,未来的实验室将由 AI 算法驱动的自主系统和机器人实验员组成,实现全天候的科研工作。

划重点:

🧠2026年,AI 持续学习技术将全面实现,为自主研究奠定基础。

🤖2030年,全自动编程有望成为现实,AI 将取代人类程序员。

🏆 到2050年,AI 系统或将成为诺奖级科学研究的主要力量。


via AI新闻资讯 (author: AI Base)
月之暗面完成5亿美元C轮融资

最近,人工智能领域再传喜讯!月之暗面(Kimi)创始人兼 CEO 杨植麟于内部信中宣布,公司已经完成了 5 亿美元的 C 轮融资。此次融资由 IDG 领投,阿里、腾讯以及老股东王慧文等也纷纷追加投资,这无疑为公司的进一步发展注入了强劲动力。

这笔融资的成功,不仅使得 Kimi 的投后估值飙升至 43 亿美元(约合人民币 300 亿元),更为其未来的技术研发奠定了坚实的基础。杨植麟在信中提到,资金将主要用于扩增显卡和加速 K3 模型的训练与研发。这表明 Kimi 正计划在技术上采取更加激进的策略,以更快地推动其在人工智能领域的创新。

2025 年对于 Kimi 来说是一个不平凡的年份。公司在这一年内实现了多项技术突破,尤其是 K2 和 K2 Thinking 的发布,这标志着 Kimi 在追求通用人工智能(AGI)的道路上迈出了重要一步。接下来,杨植麟在信中强调,Kimi 的目标是超越 Anthropic 等前沿科技公司,成为全球领先的 AGI 公司。为了实现这一宏伟目标,2026 年将围绕三大战略方向进行推进。

随着 AI 技术的快速发展,月之暗面正处于行业竞争的最前沿。未来,Kimi 不仅希望在技术上实现突破,更期望能引领行业的发展趋势。公司正以开放的姿态迎接更多的挑战和机遇,力求在日益激烈的市场中站稳脚跟。

总的来说,这次融资是 Kimi 进一步扩大市场份额、提升技术实力的一个重要里程碑。在科技的浪潮中,Kimi 的前行之路备受期待,未来的发展也将引发更多行业内外的关注。

via AI新闻资讯 (author: AI Base)
AI助手Grok操控女性照片 马来西亚展开调查

大马通讯及多媒体委员会称,一名社媒 X 用户利用平台的人工智能聊天机器人Grok深度伪造女性照片,透过数字方式移除她们的衣物或头巾。大马通讯及多媒体委员会周六发文告表示,当局将就这起网络伤害事件,传召 X 平台代表到场说明。该委员会表示,制作或传播此类有害内容,将抵触《1998年通讯及多媒体法》第 233条文。该条文禁止滥用网络或应用来传播严重冒犯、猥亵或不雅的内容。该委员会同时敦促所有可在我国浏览的网络平台,遵循大马法律与网路安全标准,对其人工智能功能、聊天机器人以及图像处理工具实施防护措施。

—— 马来西亚 东方日报

via 风向旗参考快讯 - Telegram Channel
元象开源XVERSE-Ent大模型!聚焦泛娱乐场景,中英双语支持,填补行业专属模型空白

国产大模型生态再添重磅成员。元象科技(XVERSE)今日正式开源其聚焦泛娱乐领域的底座大模型——XVERSE-Ent,同步推出中文与英文双版本。该模型专为社交互动、游戏叙事、文化创作(含小说、剧本、短视频脚本等)等泛娱乐核心场景深度优化,支持轻量化部署与垂直领域快速落地,成为国内首个面向泛娱乐行业的专属开源大模型,填补了该领域高质量基础模型的空白。

 专为“好玩、好用、好共创”而生

不同于通用大模型追求广泛知识覆盖,XVERSE-Ent从训练数据、指令微调到评估体系,均围绕泛娱乐用户的核心需求构建:

- 社交互动:擅长生成自然、有趣、带情绪张力的对话,适用于虚拟角色、AI陪聊、社区内容生成;

- 游戏叙事:可自动生成任务剧情、NPC对话、世界观设定,支持多分支、多结局的动态故事引擎;

- 文化创作:在小说、剧本、动漫脚本等长文本创作中,具备强连贯性、风格模仿与节奏把控能力。

模型在训练中融入大量中文网络文学、剧本库、游戏对白及多语言影视文本,确保内容既符合本土文化语境,又具备国际化表达能力。

 轻量化+开源,降低泛娱乐AI门槛

XVERSE-Ent特别强调部署友好性与生态开放性:

- 提供7B、13B等多参数版本,可在消费级GPU或端侧设备运行;

- 采用商用友好的开源协议,允许开发者免费用于商业产品;

- 配套开放场景化微调模板与评估工具包,助力游戏公司、内容平台、创作者快速集成。

元象表示,XVERSE-Ent的目标是成为泛娱乐行业的“AI内容引擎”,让中小团队也能拥有媲美头部厂商的智能生成能力。

 AIbase观察:大模型进入“场景专属”时代

继金融、医疗、编程、教育等领域涌现垂直大模型后,泛娱乐——这个全球规模超万亿美元的产业——终于迎来专属AI基座。XVERSE-Ent的发布,标志着国产大模型正从“大而全”转向“专而精”,以场景深度替代参数规模,成为新的竞争焦点。

在AIGC加速重构内容生产流程的今天,谁能为创作者提供真正懂剧情、会互动、能共情的AI伙伴,谁就将掌握下一代数字娱乐的入口。而元象,正试图用开源策略,率先在这片蓝海插上旗帜。

via AI新闻资讯 (author: AI Base)
华为云具身机器人负责人朱森华离职创业,探索脑认知技术

据智能涌现消息,2025 年 10 月,华为云具身机器人负责人朱森华宣布离职,创立了名为 “具脑磐石” 的公司,致力于用脑认知技术改造机器人大脑。这一举动在人工智能与机器人领域引发了广泛关注。

朱森华是一位脑神经科学博士后,曾在华为云担任 AI 算法创新实验室主任,并领导华为云智能机器人业务的开创工作。他的团队成功开发出华为云的首个具身大模型,成为国内具身智能领域的重要创新者。朱森华在接受采访时表示,创业的时机已 “万事具备”,他希望通过 “具脑磐石” 引入人脑的认知神经机制,改进具身智能的算法架构,以实现更高效的智能系统。

“具脑磐石” 在成立两个月后已成功搭建核心团队,团队成员来自华为、联想、旷视等公司,拥有超过十年的 AI 与机器人研发经验。此外,公司近期也完成了数千万元的种子轮融资,投资方包括乐聚机器人、上海道禾、四川科创投等。

朱森华提到,当前具身智能技术主要依赖深度学习模型,但这条路径在数据需求和计算能力上存在限制。他希望通过脑认知启发的算法框架,减少对数据和算力的依赖,提升智能机器的泛化能力。他指出,人类大脑是最强的具身智能系统,借鉴其工作机制无疑是未来技术发展的重要方向。

随着具身智能在各行业的应用逐渐增多,朱森华认为,企业面临的主要挑战在于如何让客户愿意为尚未完全成熟的机器人技术付费。他以日本的便利店为例,指出在劳动力缺的背景下,具身机器人可以承担夜班值守等基础性工作,满足市场需求。

朱森华的创业计划已与国内多家上市公司达成合作,目标将首先聚焦亚太地区的商业服务与工业场景。未来 3 到 5 年,他预计将完成深度学习算法的更新换代,推动具身智能技术的进一步发展。

via AI新闻资讯 (author: AI Base)
🤖 通用人工智能(AGI):从边缘构想到全球科技行业核心叙事的演变

通用人工智能(AGI)已从二十年前的边缘构想演变为当今科技行业及全球经济的主导叙事。根据《麻省理工科技评论》的报道,AGI这一概念最早由研究员本·格策尔(Ben Goertzel)和谢恩·莱格(Shane Legg)在2007年提出,旨在描述一种能执行人类大脑几乎所有功能的假设性技术。尽管目前学术界对AGI尚无统一的科学定义,且该技术尚未真正实现,但包括OpenAI、Google DeepMind和Anthropic在内的顶尖AI公司负责人均已将其作为核心发展目标。OpenAI首席执行官萨姆·奥特曼(Sam Altman)预测AGI将极大增加社会繁荣,而Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)则将其智能程度比作“天才国家”。

这一愿景正驱动着庞大的资本投入与基础设施建设。OpenAI与英伟达近期宣布了高达1000亿美元的合作伙伴关系,旨在满足至少10吉瓦(GW)的电力需求;随后OpenAI又与AMD达成了涉及6吉瓦电力的合作。然而,文中指出AGI的叙事方式与阴谋论存在多处相似特性,包括其不可证伪性、对未来救赎或灾难的极端预测,以及对“隐藏真相”的追求。例如,以艾利泽·尤德科夫斯基(Eliezer Yudkowsky)为代表的“毁灭论者”认为AGI有极高概率导致人类灭绝,甚至主张通过国际禁令及武力手段阻止其开发。

这种对假设性技术的单一关注引发了多方担忧。社会学家和政策专家指出,对AGI的追求可能导致资源从医疗保健等实际应用领域流失,并使监管机构的注意力从当前的算法不平等、劳动力影响等紧迫问题转向遥远的生存风险。此外,AGI的“必然性”叙事被认为是一种商业策略,旨在吸引投资并招募顶尖人才。尽管GPT-4等模型展现了显著的能力,但专家提醒,智能并非可以单纯通过增加算力和数据就能无限叠加的商品,目前行业对AGI的追求在很大程度上建立在技术信仰而非确凿的证据之上。

(MIT Technology Review)

via 茶馆 - Telegram Channel
字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

近日,字节跳动与南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。

当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。以往的解决方案要么需要大量计算资源,要么会在拼接场景时失去一致性。

StoryMem 系统采用了一种新的方法。在生成视频的过程中,它会将视觉上重要的帧存储在内存中,并在生成新场景时进行参考。该系统的算法会智能选择重要帧,以确保内存的管理效率,同时保留故事开头的重要视觉信息。生成新场景时,这些存储的帧将与当前正在创建的视频一起输入模型,确保生成的内容保持一致。

在实际训练中,StoryMem 采用了低秩适应(LoRA)技术,以适应阿里巴巴开源模型 Wan2.2-I2V。研究团队使用了40万段每段五秒的视频片段进行训练,并通过视觉相似性对这些片段进行分组,从而使模型能够生成风格一致的续集。

根据研究结果,StoryMem 在跨场景一致性上显示了显著的提升,相较于未修改的基础模型提高了28.7% 的表现。此外,用户调查显示,参与者更倾向于选择 StoryMem 生成的结果,认为其在美观性和一致性上均表现更佳。

然而,研究团队也指出了该系统的一些局限性,比如在包含多个角色的复杂场景中,可能会出现角色视觉特征应用不当的情况。为此,建议在每个提示中明确描述角色,以提高生成效果。

项目:https://kevin-thu.github.io/StoryMem/

划重点:

🌟 StoryMem 系统能够有效解决 AI 视频生成中角色和环境不一致的问题。

📊 通过存储关键帧,StoryMem 在跨场景一致性方面比现有模型提升了28.7%。

🛠️ 该系统在处理复杂场景时仍面临挑战,需对角色进行明确描述以提升生成效果。


via AI新闻资讯 (author: AI Base)
消息称百度分拆昆仑芯秘密赴港IPO,估值达30亿美元

百度旗下高性能 AI 芯片子公司昆仑芯(Kunlunxin)已于1月1日秘密向香港联交所提交 IPO 申请。此次分拆上市后,昆仑芯将继续保留在百度体系内。据路透社消息,昆仑芯在最近一轮融资中的估值约为 30亿美元,尽管最终募资规模尚未尘埃落定,但其资本动作已引发市场高度关注。

昆仑芯的前身可追溯至2012年成立的百度内部芯片部门,最初核心任务是为百度搜索及 AI 业务提供底层算力支撑。在过去的两年中,昆仑芯加速了商业化独立进程,成功将客户群从母公司拓展至更广泛的外部领域。在全球半导体供应链波动及美国出口限制的背景下,昆仑芯的上市计划被视为中国加速本土半导体替代、强化自主算力供给的关键一步。

目前,香港交易所正迎来新一波 AI 与芯片企业的“上市潮”。除昆仑芯外,包括 MiniMax、壁仞科技(Biren Technology)以及欧姆尼科技在内的多家独角兽企业也都在积极筹备赴港上市。这不仅反映了资本市场对国产算力芯片的青睐,也预示着中国 AI 基础设施企业正集体走向全球资本舞台。

via AI新闻资讯 (author: AI Base)
效率惊人!Google 首席工程师称 Claude Code 仅用1小时便完成团队一年的工作量

人工智能领域近日发生了一件让开发者圈震动的事。Google 负责 Gemini API 的首席工程师 Jaana Dogan 在社交平台 X 上公开盛赞 Anthropic 推出的新工具 Claude Code。她透露,自己曾向该工具描述了一个困扰团队一年的复杂难题——分布式代理编排系统,结果 Claude Code 仅用1小时就生成了可运行的系统框架。

尽管 Google 团队此前曾尝试过多种方案,但始终未能达成共识。令人意外的是,Dogan 提供给 Claude Code 的提示词仅有短短三段话。虽然她坦言生成的代码并非完美,仍需后续打磨,但其完成度已足以与团队耗时一年打磨出的成果相媲美。这一案例直观地展示了 AI 编程工具在逻辑理解和系统构建能力上的飞跃。

 注意到,Dogan 对此感慨万千。她回顾道,2022年的 AI 只能补全单行代码,而到了2025年,AI 已经能够重构甚至从零创建整个代码库。这种超越预期的进化速度,让原本认为“自动化编程还需五年才能普及”的专家们纷纷改变了看法。

目前,出于安全考虑,Google 内部仅允许在开源项目中使用Claude Code。对此,Dogan 表现出积极的竞争心态,表示这种行业内的相互激励将促使 Google 的 Gemini 团队更加努力地优化自身模型。

划重点:

效率飞跃:Google 首席工程师亲测Claude Code,仅用1小时便解决了原本需要整个团队开发一年的复杂技术问题。
📈 进化超前:AI 编程能力从2022年的单行补全进化到2025年的整站重构,其发展速度远超行业专家的预测。
🛠️ 优化建议:Claude Code创始人建议开发者开启“自我检查”模式,这种反馈闭环可使 AI 输出的代码质量提升2到3倍。



via AI新闻资讯 (author: AI Base)
三星 AI 机器人亮相 CES2026:13.4英寸 OLED 做“脸”,能带路还能替教授发作业

三星显示(Samsung Display)今日宣布,将在即将开幕的2026年国际消费电子展(CES2026)期间举办私人展览,集中展示一系列为人工智能时代设计的下一代 OLED 概念产品。其中,一款名为 AI OLED Bot 的概念机器人成为全场焦点,被视为人类与 AI 深度交互的新型媒介。

这款 AI OLED Bot 定位为小型移动智能平台,其最显著的特征是配备了一块 13.4英寸的 OLED 屏幕作为机器人的“面部”。得益于 OLED 面板超高的形态自由度,该机器人不仅能在指定空间内自由移动并与用户交流,还能实现曲面或圆形等异形设计。在 CES2026的现场演示中,它将化身为“大学教学辅助机器人”,执行引导学生寻找教室、展示教授简介等任务。特别是在图书馆等不便使用语音指令的安静环境中,学生可以通过其高清晰度的显示屏直观获取课程变动或作业通知。

除了 AI 机器人,三星显示还同步披露了多款前沿显示技术,包括具备4500尼特峰值亮度的 QD-OLED 面板、面向空间计算的 RGB OLEDoS 显像头显,以及融合了复古与科技感的 AI OLED Turntable(黑胶唱机概念) 等。三星强调,OLED 的轻薄与柔性特质正在打破传统显示器的物理限制,为 AI 硬件的个性化表达与功能融合提供了无限可能。

via AI新闻资讯 (author: AI Base)
不满 Grok 生成“清凉照”,印度政府向马斯克下达72小时限期整改令

埃隆·马斯克旗下的社交平台 X(原推特)正面临来自印度政府的严厉法律施压。起因是该平台内置的 AI 聊天机器人 Grok 被指控存在严重的安全漏洞,允许用户通过提示词生成涉及女性的“低俗色情”及“虚假裸露”内容。

印度信息技术部已于近日正式发布命令,要求 X 平台立即针对 Grok 的生成机制进行技术与操作流程的整改。此次监管风暴的导火索是多名印度用户及议员的公开举报。调查显示,有用户利用 Grok 的图像编辑功能,将女性照片篡改成身穿比基尼等露骨形象。此外,还有报道指出,该模型甚至生成了涉及未成年人的不雅图像。尽管 X 平台承认安全防护存在缺失并下架了部分内容,但第三方监测机构发现,相关违规图像目前仍在该平台上流传。

针对这一情况,印度政府下达了“最后通牒”:要求 X 平台在72小时内提交详细的整改报告,说明其将采取哪些具体措施来拦截裸体、性化描述及其他非法素材。如果 X 平台未能按时达标,可能会失去印度法律赋予社交媒体的“安全港”保护地位。这意味着,平台将不再对用户发布的违法内容享有免责权,高管甚至可能面临刑事追责。

作为全球最大的数字市场之一,印度此次对 Grok 的铁腕整治,被视为各国政府追究 AI 生成内容责任的标杆案例。AIbase 将持续关注马斯克将如何调整算法以应对这一监管危机。

划重点:

🚨 限期整改:印度政府要求 X 平台在72小时内修复 Grok 的漏洞,严禁生成低俗、色情及不雅内容。
⚖️ 法律威慑:若整改不力,X 平台将失去“安全港”免责保护,平台负责人可能面临印度法律的严厉追诉。
🛡️ 安全漏洞:此次整改源于 Grok 被滥用生成女性及未成年人的虚假性化图像,引发了印度社会与政界的强烈抗议。

via AI新闻资讯 (author: AI Base)
未来已来!智元机器人艺人团亮相湖南卫视跨年演唱会,科技与艺术的完美融合

智元公司在湖南卫视的跨年演唱会上首次推出了全能型机器人艺人团体。这支名为 “能文能武” 的机器人团队由灵犀 X2、远征 A2、精灵 G2 和四足机器人 D1 组成,表现出色,吸引了众多观众的目光。在这场演出中,它们不仅与人类明星王心凌和王鹤棣同台合作,还展现了机器人艺人的多重才艺,成为跨年夜的亮点。

作为 “唱跳担当”,灵犀 X2 与王心凌一起带来了甜蜜的音乐表演。灵犀 X2 的舞步与王心凌的节奏完美契合,现场气氛瞬间被点燃。智元的灵心平台和灵创平台助力机器人在极短的时间内学习歌曲和舞蹈动作,成为了一名真正的舞台艺人。

在另一段表演中,王鹤棣与灵犀 X2 合作演绎了节目《闻机起武》。伴随着激昂的《男儿当自强》旋律,灵犀 X2 进行了高难度的翻转动作,展现出惊人的力量与优雅。机器人通过精准的动作和协调的配合,令现场观众惊叹不已。

此外,这支机器人天团不仅在舞台上大展拳脚,它们还参与了直播活动,帮助推广商品。远征 A2 与明星孟子义互动,展示了高情商的同时,甚至为观众即兴创作了祝福语。灵犀 X2 则在直播中与其他明星斗舞,将气氛推向高潮。

机器人们在红毯上的自信表现,令观众对未来的机器人艺术家充满期待。它们不仅能在舞台上展现才艺,还能在生活中承担各种角色。智元的机器人团队完美诠释了 “能文能武,唱跳全能” 的理念,让人们看到了科技与艺术交汇的美妙瞬间。这场跨年演唱会,不仅仅是一场表演,更是未来生活方式的一种预示,彰显了人类与机器人和谐共存的可能性。

via AI新闻资讯 (author: AI Base)
立讯精密澄清 OpenAI 代工传闻,核心业务正常推进

近日,立讯精密对外发布声明,针对市场上流传的有关公司与 OpenAI 的代工传闻进行澄清。立讯精密指出,近期有关其参与 OpenAI 硬件代工的消息并不属实,造成了市场的误解和困扰。

立讯精密强调,目前公司的核心业务正按计划正常推进,并没有出现任何异常情况。公司长期以来专注于高端消费电子和智能终端的制造,具备完善的垂直整合能力以及丰富的产品工程与量产经验。立讯精密在全球范围内建立了覆盖多区域的生产能力,能够为不同类型的客户提供稳定、高质量的制造与供应服务,这些实力已在产业链中得到了验证。

之前有媒体报道称,OpenAI 的首款 AI 终端硬件产品原定由立讯精密进行代工,但因生产地点的考量,最终决定由鸿海独家负责生产。这款 AI 终端可能包括智能笔或便携式音频设备,目前正在设计阶段,计划于2026年或2027年正式推出。

立讯精密此次的澄清声明旨在消除市场对公司业务的误解,维护其良好的企业形象。公司表示,将继续专注于核心业务,努力推动各项工作的顺利进行。

via AI新闻资讯 (author: AI Base)
OpenAI押注“语音优先”未来!整合多团队重造音频模型,首款AI音频硬件或明年问世

在屏幕交互渐显疲态之际,科技巨头正集体转向一个更自然、更沉浸的交互范式——语音。据《The Information》最新披露,OpenAI已秘密整合多个工程、产品与研究团队,全力重构其音频AI系统,为一款预计2026年推出的音频优先个人设备铺路。这不仅是一次技术升级,更是OpenAI对“后屏幕时代”人机交互终局的明确押注。

 从“辅助功能”到“核心交互”:OpenAI重构音频战略

新音频模型预计将于2026年初发布,将实现三大突破:

- 更自然的语音合成,接近人类语调与节奏;

- 支持真实对话式打断——用户可随时插话,AI能即时响应;

- 首次实现“边听边说”(concurrent speech)能力,即在用户说话时同步输出反馈,打破当前AI“说完才能听”的僵化交互模式。

更重要的是,OpenAI正规划一系列音频优先硬件产品,可能包括无屏智能音箱、AI眼镜或可穿戴设备,目标不是成为工具,而是用户的“智能伴侣”。

 行业共振:语音正成下一代入口

OpenAI并非孤例,整个科技生态正加速向音频迁移:

- Meta 为Ray-Ban智能眼镜配备五麦克风阵列,实现嘈杂环境下的定向聆听;

- Google 推出“Audio Overviews”,将搜索结果转化为对话式语音摘要;

- Tesla 将xAI的Grok聊天机器人深度集成至车载系统,通过自然语言控制导航、空调等全车功能;

- 初创公司如Sandbar、前Pebble创始人Eric Migicovsky的新公司,均计划于2026年推出AI语音戒指,实现“抬手即对话”。

即便Humane AI Pin、Friend AI项链等早期尝试遭遇滑铁卢,市场仍坚信:语音是通往无感、无缝、无屏智能体验的关键路径。

 Jony Ive入局:用音频“修正”科技成瘾

值得注意的是,OpenAI的硬件愿景深受前苹果设计灵魂人物Jony Ive影响。今年5月,OpenAI以65亿美元收购Ive的公司LoveFrom(报道中称“io”),将其引入硬件团队。Ive公开表示,希望借音频优先设计“纠正过去消费电子设备制造的错误”——即减少屏幕依赖、缓解数字成瘾,让技术回归服务人性的本质。

 AIbase观察:语音战争,本质是“注意力争夺”

当每个空间——客厅、驾驶舱、手腕、甚至眼镜——都成为语音交互入口,竞争已超越技术本身,直指人类最稀缺的资源:注意力。

OpenAI的野心,不只是让ChatGPT“说得更好”,而是让AI无处不在却又不可见,通过声音融入生活流,成为用户思维的延伸。

若成功,OpenAI或将定义继智能手机之后的下一代个人计算平台。而这场静默却深刻的“语音革命”,正从一句“Hey, ChatGPT…”悄然开始。

via AI新闻资讯 (author: AI Base)
字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。

StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。研究人员指出,将所有场景强行塞入单个模型会导致计算成本激增,而分段生成又会丢失关联。为此,StoryMem 选择性地存储先前场景的关键帧作为参考。该算法利用双重过滤器,先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。在生成新场景时,这些关键帧会配合一种名为 RoPE(旋转位置嵌入)的技术输入模型。通过赋予记忆帧“负时间索引”,系统能引导 AI 将其识别为“过去的事件”,从而确保角色形象和背景细节在故事推进中保持稳定。

值得关注的是,StoryMem 的实现方式极为高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学得分与用户偏好上也全面超越了 HoloCine 等现有前沿技术。

此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。尽管在处理多角色并发及大幅度动作衔接上仍有局限,但团队已在 Hugging Face 开放了权重数据,并上线了项目页面供开发者探索。

地址:https://kevin-thu.github.io/StoryMem/

https://huggingface.co/Kevin-thu/StoryMem

via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]