https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
科技与加密资本备战中期选举 OpenAI联合创始人等领衔

根据一份公布的文件显示,与美国总统特朗普结盟的一个竞选资金组织在2026年到来之际,已积累了近3亿美元的资金,以备战今年的中期选举。向联邦选举委员会提交的文件显示,超级政治行动委员会——让美国再次伟大公司(Make America Great Again Inc)——报告称,在 7 月 1 日至 12 月 22 日期间筹集了约 1.02 亿美元。

其中近一半的金额来自三位捐赠者。OpenAI总裁兼联合创始人Greg Brockman捐赠了 2500 万美元,而运营 Crypto.com交易所的Foris DAX Inc捐赠了 2000 万美元。私募股权投资者Konstantin Sokolov捐赠了1100万美元。文件显示,来自科技、加密货币、能源和国防相关利益集团的大笔捐款也帮助资助了特朗普。

该超级政治行动委员会可以利用这些资金来影响 11 月的中期选举,预计此次选举将对特朗普第二任期内的政策进行全民公投。根据美国宪法规定,特朗普不得竞选第三个总统任期。

共和党目前在众议院和参议院都仅占微弱多数,因此即将到来的选举对于控制国会至关重要。自特朗普去年1月重返白宫以来,美国各大公司和富裕人士纷纷加强与特朗普政府的联系。

相关文章:

OpenAI总裁向特朗普捐赠2500万美元 成最大捐款人

via cnBeta.COM - 中文业界资讯站 (author: 稿源:智通财经网)
月之暗面再推多模态新模型,Kimi K2 升级版拟于第一季度亮相

近日,据《科创板日报》消息,国内大模型领先企业月之暗面计划在2026年第一季度(拟定于1月或3月)上线全新的多模态模型。据悉,该模型型号或定名为K2.1/K2.5,将在多模态处理与智能体(Agent)能力上实现进一步突破。

这款即将推出的新产品是基于月之暗面首个万亿参数开源模型Kimi K2升级而来。Kimi K2自2025年7月发布以来,凭借混合专家(MoE)架构在代码生成与通用任务处理上表现出色,后续版本更将上下文长度扩展至256K,并推出了支持“边思考、边工具协作”的 Thinking 模型。此次升级预示着 Kimi 系列模型在理解视觉、音频等多维度信息方面将具备更强的性能。

除了技术储备,月之暗面的财务状况也为持续研发提供了充足底气。创始人兼 CEO 杨植麟在近日的内部信中透露,公司目前拥有超过100亿元人民币的现金储备。相比之下,智谱、MiniMax 等国内同梯队 AI 厂商也在积极储备资金并筹备 IPO,反映出当前大模型领域激烈的竞争态势。

via AI新闻资讯 (author: AI Base)
清华与 OpenBMB 联合推出 UltraEval-Audio:音频模型评测新框架开源发布

近日,清华大学 NLP 实验室、OpenBMB 和面壁智能联合发布并开源了 UltraEval-Audio,这是一个专为音频模型设计的测评框架。UltraEval-Audio 不仅为音频大模型领域建立了一整套完整的评测方法论,还将这一体系具体化为一个开箱即用的工程框架,从而完善了音频评测的整体结构。

UltraEval-Audio 的最新版本 v1.1.0在原有 “一键测评” 功能的基础上,增加了热门音频模型的一键复现能力,并扩展了对文本转语音(TTS)、自动语音识别(ASR)、编解码(Codec)等专业模型的支持。此外,这一版本引入了隔离推理的运行机制,旨在降低模型复现的门槛,提高评测流程的可控性与可迁移性。

值得注意的是,UltraEval-Audio v1.1.0已经成为 MiniCPM-o2.6、VoxCPM 等众多高影响力音频及全模态模型的重要测评工具。该框架的开源将显著提高研究者在音频模型开发过程中的效率,推动相关领域的研究进展。

开源地址也已公开,研究者们可以通过 GitHub 获取更多信息。UltraEval-Audio 的发布,标志着音频模型评测的标准化进程迈出了重要一步,助力音频技术的快速发展。

开源地址:https://github.com/OpenBMB/UltraEval-Audio

划重点:

🌟 UltraEval-Audio 是音频模型的测评框架,由清华 NLP 实验室、OpenBMB 与面壁智能联合发布。

🚀 最新版本 v1.1.0新增一键复现功能,支持更多专业模型的评测。

📈 开源发布将显著提升研究者的开发效率,推动音频模型领域的进步。


via AI新闻资讯 (author: AI Base)
人形机器人第一股“遇冷”?宇树科技上市绿色通道被叫停

据网易科技消息,国内具身智能领军企业宇树科技(Unitree)在 A 股上市的“绿色通道”已被叫停。这一机制原本旨在为符合国家战略方向的重点企业提供优先审核与简化程序,以缩短 IPO 进程。尽管快捷路径受阻,但消息人士强调,宇树科技的上市进程并未终止,目前该公司仍处于正常的排队审核流程中。

作为“A 股人形机器人第一股”的最有力竞争者,宇树科技的上市动向一直被视为行业风向标。证监会官网显示,该公司已于去年11月在中信证券的辅导下完成了 IPO 辅导工作。此次绿色通道被叫停,被市场解读为监管层释放的“降温”信号。相关知情人士透露,监管部门此举意在防范机器人赛道因资本过度涌入而产生的同质化竞争与估值泡沫,引导产业回归理性。

虽然无法享受加速待遇,但宇树科技的硬实力依然扎实。根据此前披露的信息,宇树科技在2024年已实现营收超10亿元人民币并达成盈利,其产品线覆盖了从万元级的消费级机器狗到十万元级的通用人形机器人。分析人士认为,对于已具备成熟商业化能力和技术壁垒的头部企业而言,走自然流程上市反而有助于市场更全面地评估其长期价值。

via AI新闻资讯 (author: AI Base)
Anthropic豪掷210亿美元!绕过谷歌直接向博通采购近百万颗TPU v7p芯片,构建自主AI算力帝国

AI算力格局迎来重大变局。据半导体研究机构SemiAnalysis昨日披露,AI公司Anthropic已与博通达成重磅合作,将直接采购近 100 万颗TPU v7p “Ironwood” AI芯片,用于在自控数据中心中大规模部署AI训练与推理基础设施。此举意味着,Anthropic选择绕过TPU的原始开发方谷歌,直接从芯片制造商博通获取整机系统,仅让谷歌以IP授权方身份参与交易。

  210 亿美元订单背后:构建独立于云巨头的AI算力

博通CEO陈福阳在 2025 年 12 月确认,Anthropic已向博通下达总计 210 亿美元(约合 1472 亿元人民币),涵盖基于TPU v7p的机架级AI系统。这些系统将由TeraWulf等三家企业提供基础设施支持,Fluidstack负责现场部署与运维,形成Anthropic完全自主掌控的算力闭环。

尽管谷歌仍是TPU架构的知识产权持有者,并将从交易中获得IP授权费,但不再作为硬件供应商或云服务中间方。这一安排使Anthropic大幅降低对谷歌云的依赖,增强其在模型训练、数据安全与成本控制上的独立性。

 为何绕过谷歌?安全、成本与战略自主成关键

分析认为,Anthropic此举出于三重考量:

- 数据主权:Claude系列模型涉及大量企业级敏感数据,本地部署可避免数据经手第三方云平台;

- 成本优化:直接采购整机系统可规避云服务溢价,长期运营成本显著低于租用TPU Pod;

- 技术自主:掌握底层算力栈,便于深度定制芯片驱动、通信协议与调度系统,提升训练效率。

此举也反映出头部AI公司正加速“去云化”,从“租算力”转向“建算力”,以争夺AGI竞赛中的基础设施主导权。

 TPU生态裂变:博通成最大赢家?

对博通而言,此次合作标志其成功从“芯片供应商”升级为“AI系统集成商”。过去,TPU生态由谷歌全栈掌控;如今,博通凭借先进封装与系统集成能力,将谷歌IP转化为可对外销售的标准化产品,开辟全新营收赛道。

而对谷歌而言,虽丧失硬件销售与云绑定机会,但IP授权模式仍可带来稳定收益,并扩大TPU架构的行业影响力——只是控制力已大不如前。

 AIbase观察:算力主权战争全面打响

Anthropic的百亿级采购,不仅是商业决策,更是AI时代“算力主权”意识的集中体现。当大模型成为国家战略资产,谁掌控算力,谁就掌握AI发展的主动权。

未来,OpenAI、xAI、Meta等公司或纷纷效仿,推动AI芯片从“云内专属”走向“企业私有”。而这场由Anthropic点燃的算力自主化浪潮,或将重塑全球AI基础设施的权力版图——芯片、云、模型三层关系,正在被重新定义。

via AI新闻资讯 (author: AI Base)
国行iPhone收到AI测试提示?苹果官方紧急辟谣:强行开启有安全风险

AIbase报道 随着苹果人工智能服务的逐步推进,国行版 iPhone 何时能用上 AI 功能一直备受关注。近日,有博主发文称其手中的国行版 iPhone16Plus 突然收到了“Apple智能与Siri”的相关测试提示,这一消息迅速在社交平台引发了关于“苹果国行AI开启灰度测试”的热烈讨论。

针对这一传闻,苹果技术顾问在接受采访时给出了明确回应。官方表示,截至目前,Apple Intelligence尚未在中国大陆地区正式上线,具体的上线计划及时间表均会通过苹果官网进行正式公告。对于部分用户收到的测试提醒,专家分析认为,这很可能与之前使用第三方工具或非官方手段尝试开启 AI 功能留下的缓存记录有关。

苹果官方同时发出了安全警示。由于目前市面上存在一些号称可以绕过系统限制、强行开启国行 AI 功能的第三方软件,苹果顾问提醒用户,此类操作不仅违规,还极有可能危及个人账号安全及资金安全。

此外,从系统机制上看,iOS 系统本身并不具备所谓的“灰度测试”环节。按照苹果的一贯流程,所有新功能都会先在 iOS 测试版(Beta)中进行公开验证,待稳定性达标后才会通过正式版系统向全量用户推送。目前,Apple Intelligence仅支持 iPhone15Pro 系列及后续发布的机型,广大国行用户仍需耐心等待官方的正式通知。

划重点:

🚫 官方正式辟谣:苹果技术顾问明确表示国行版 AI 功能尚未正式上线,网传的“灰度测试”说法并不属实。
⚠️ 严防安全隐患:官方警告用户切勿使用第三方软件强行开启 AI 功能,以免造成账号被封禁或资金被盗等安全风险。
📅 遵循官方渠道:iOS 并没有灰测机制,新功能将遵循从测试版到正式版的标准流程,用户应以官网公告为准。

via AI新闻资讯 (author: AI Base)
Instagram 负责人亚当・莫塞里谈 AI 时代的真实与虚构

在 2025 年即将结束之际,Instagram 的负责人亚当・莫塞里以一组 20 张图片探讨了 “无限合成内容” 时代的影响。他指出,随着合成影像的技术不断进步,现实与虚构之间的界限越来越模糊,传统的 Instagram 信息流形式已逐渐成为历史。

莫塞里表示,过去,人们普遍相信照片和视频记录的是现实生活中的瞬间。然而,这种信任已经被打破,未来人们在面对信息时将更倾向于怀疑,不再盲目相信眼前所见。他强调,用户需要审视内容的发布者及其动机,这一转变将带来不安,因为人类天生倾向于相信视觉证据。

为了适应这种变化,Instagram 和其他社交平台必须不断进化。他建议开发更强大的创作工具,以清楚标注 AI 生成的内容,验证真实素材,并帮助用户判断发布者的可信度。尽管用户常常批评 “AI 垃圾内容”,但优质的 AI 作品也层出不穷。

在谈到相机厂商的未来时,莫塞里指出,他们正试图让每个人都拍出 “2015 年专业摄影风格” 的照片,这种趋势可能错失市场需求。他提到,未经美化的原始影像在短期内可能更能被视为真实的信号,因为这些图像传达了人们对真实性的渴望。

他还强调,未来判断内容的真实与否,将不再仅依赖图像本身,而是需要通过发布者身份来确认。相机制造商应为拍摄的图像进行加密签名,以确保内容的真实性。同时,提供更多关于发布者的信息,将帮助用户判断内容的可信度。

莫塞里最后指出,在信息量无限、怀疑情绪高涨的世界里,能够赢得用户信任的创作者,将凭借真实、透明和一致性脱颖而出。Instagram 需要加快转型步伐,提供用户所需的信任信号。


划重点:

🌐 1. Instagram 负责人亚当・莫塞里指出,随着合成影像技术的进步,现实与虚构的界限逐渐模糊,传统信息流形式已成历史。

🔍 2. 用户在面对内容时将更倾向于怀疑,需要关注内容发布者及其动机,以判断内容的可信度。

🛠️ 3. Instagram 必须不断进化,开发新工具标注 AI 生成内容,并通过加密技术确保真实素材的可靠性。



via AI新闻资讯 (author: AI Base)
Google首席工程师公开点赞Claude Code!仅用1小时解决团队一年难题,坦言AI编程已超预期进化

在AI编程工具竞争白热化的当下,一则来自Google内部的“破防”评价引发行业震动。Google Gemini API首席工程师Jaana Dogan近日在社交平台X上公开盛赞Anthropic推出的Claude Code,称其仅用1小时便生成了一个困扰Google团队长达一年的复杂系统框架——分布式代理编排系统,而所用提示词仅有短短三段话。

 1小时 vs1年:AI编程能力实现质的飞跃

Dogan透露,Google团队曾多次尝试构建该系统,但始终因架构分歧未能落地。而她将问题描述提交给Claude Code后,AI迅速输出了一个结构清晰、逻辑完整、可直接运行的系统原型。尽管代码仍需优化,但其完成度“足以媲美团队一年迭代的成果”。

“2022年,AI只能补全一行代码;2025年,它已能从零构建整个代码库,”Dogan感慨道。这一进化速度远超业界预期,甚至让曾断言“自动化编程还需五年”的专家集体改口。

 安全限制下的“羡慕”:Google内部仅限开源项目使用Claude Code

尽管对Claude Code给予高度评价,Dogan也坦言,出于安全合规要求,Google目前仅允许员工在开源项目中使用该工具,内部核心系统仍依赖Gemini等自研模型。但她强调,这种外部竞争“不是威胁,而是激励”,正推动Gemini团队加速优化代码生成、工具调用与工程理解能力。

 AIbase观察:编程范式革命已至,胜负手在“系统级构建力”

Dogan的分享揭示了一个关键转折:AI编程的竞争已从“单文件补全”升级为“复杂系统设计”。能理解分布式架构、跨服务通信、状态一致性等高阶工程概念的模型,才真正具备替代人类初级至中级工程师的潜力。

而Claude Code在此类任务中的表现,或印证了Anthropic在代码逻辑严谨性、长上下文推理与工程规范遵循上的优势。对Google而言,这既是警钟,也是催化剂——在AI编程的“诸神之战”中,唯有持续交付可信赖、可维护、可扩展的代码,才能赢得开发者心智。

当AI能在一小时内完成人类团队一年的工作,编程的未来,已不再是“是否会被取代”,而是“如何与AI共创新高度”。

via AI新闻资讯 (author: AI Base)
英伟达 GB200 NVL72 性能惊人,超越 AMD MI355X 达 28 倍

在最新发布的 SemiAnalysis InferenceMAX 基准测试中,Signal65 分析了 Deepseek-R1 0528 混合专家(MoE)模型的推理表现,结果显示英伟达(NVIDIA)的 GB200 NVL72 机架系统在性能上大幅领先于同规模的 AMD Instinct MI355X 集群。混合专家模型的特点在于能够根据任务类型激活最适合的 “专家” 进行处理,这种设计提高了效率,但在大规模扩展时可能导致节点之间的通信延迟和带宽压力,成为计算瓶颈。

英伟达通过 “极致协同设计” 策略,优化了 GB200 NVL72 的架构。该系统通过紧密互联 72 颗芯片,并配备高达 30TB 的共享内存,显著提升了数据传输效率,解决了延迟问题。根据测试数据,GB200 NVL72 在相似配置下的每个 GPU 吞吐量高达 75 tokens / 秒,其性能是 AMD MI355X 的 28 倍。

对于超大规模云计算公司而言,整体拥有成本(TCO)是非常重要的考量指标。Signal65 结合 Oracle 云定价数据指出,GB200 NVL72 不仅性能强劲,成本效益也令人瞩目。其每 token 的相对成本仅为 AMD 方案的十五分之一,并且提供了更高的交互速率。

尽管英伟达在混合专家模型领域占据主导地位,AMD 仍有其竞争优势。报告指出,AMD 的 MI355X 凭借高容量的 HBM3e 内存,在稠密模型环境中仍然是一个具备竞争力的选项。目前,AMD 尚未推出新的机架级解决方案来应对 GB200 NVL72 的挑战。然而,随着 AMD Helios 平台与英伟达 Vera Rubin 平台的竞争逐渐白热化,未来在机架级扩展方案上的较量将更加激烈。

划重点:

🟢 英伟达 GB200 NVL72 的性能是 AMD MI355X 的 28 倍,显著领先。

🟢 GB200 NVL72 通过优化架构和高速共享内存解决了数据传输延迟问题。

🟢 尽管英伟达占据优势,AMD 仍在稠密模型领域具有竞争力,未来竞争将更加激烈。


via AI新闻资讯 (author: AI Base)
🛡️ 马来西亚通讯及多媒体委员会将传召X平台代表 调查Grok AI生成深度伪造照片事件

马来西亚通讯及多媒体委员会(MCMC)于1月3日表示,将传召社交平台X的代表,就其人工智能机器人Grok生成的深度伪造照片事件展开调查。此前有报道称,部分用户利用该AI工具对女性照片进行数字化篡改,移除衣物或头巾,涉嫌侵犯隐私及制造猥亵内容。目前,委员会正联合警方追踪涉案用户,并评估X平台防范AI滥用的管控措施。当局重申将严厉打击分发淫秽内容的违法行为,并呼吁公众举报相关违规信息,以维护网络安全环境。

(科技圈)

via 茶馆 - Telegram Channel
苹果回应“AI 功能疑似阉割”:切勿通过第三方绕开限制,警惕账号风险

针对近日社交平台流传的“苹果 AI 国行版开启灰度测试”传闻,苹果官方给出了正式回应。此前有博主称,部分国行设备已可在设置中激活“Apple 智能与 AI”功能,并在下载完成后新增“图乐园”App。更有网友反馈称,测试中的 AI 回答疑似基于百度搜索结果,功能体验存在简化。

苹果公司技术顾问在接受采访时明确表示,截至目前 Apple 智能(Apple Intelligence)尚未在国行版本正式上线,一切后续进展均以官网公告为准。苹果方面特别强调,Apple 智能对硬件性能有极高要求,预计仅 iPhone15Pro 及更新机型才能兼容。针对部分旧机型(如 iPhone15)无法适配的问题,技术顾问指出其硬件规格尚不足以支撑复杂的 AI 算法。

同时,针对市场上流传的通过第三方软件强行开启 AI 功能的“攻略”,苹果官方发出安全警示:此类操作不仅绕开了系统限制,更可能对用户的资金和账号安全造成潜在风险。此前,多家媒体曾报道苹果正与百度、阿里巴巴等国内科技巨头商讨 AI 服务的本地化合作,但具体的落地形式与上线时间仍处于待定状态。

via AI新闻资讯 (author: AI Base)
谷歌 DeepMind 预测:2026年 AI 将迈入持续学习新时代

近日,谷歌 DeepMind 的研究员发布了震撼的预测,认为2026年将成为 AI 发展的重要转折点,持续学习技术将全面实现。持续学习是指 AI 能够在不间断的情况下,自主吸收新知识并进行改进,这被认为是 AI 自我提升的核心要素。

据悉,谷歌内部的持续学习技术已经取得了初步成果。去年,谷歌团队在 NeurIPS2025大会上提出了 “嵌套化方法”,显著提升了大语言模型(LLM)的上下文处理能力,并使其具备持续学习的能力。DeepMind 的研究显示,持续学习不仅仅是 AI 进化的一个步骤,更是未来 AI 能否在各领域独立研究和编程的关键。

在接下来的几年中,AI 的持续学习能力将不断显现,Anthropic 公司的 CEO Dario Amodei 也表示,2026年将会是这一技术实用化的重要时刻。最近,有工程师分享了他们使用 AI 工具 Claude Code 进行编码的经历,表示 AI 已经能够自动生成代码,程序员的干预需求大幅减少。

随着 AI 技术的不断进步,预测显示到2030年,全自动编程将会成为现实,这意味着 AI 将能够完全取代人类程序员,迅速完成编码任务。同时,研究人员也探讨了未来的智能爆炸阶段,当 AI 研发完全自动化后,AI 可能会以更快的速度进行自我提升,最终进入超智能时代。

根据《自然》杂志的最新展望,预计到2050年,AI 系统可能会成为诺贝尔奖级研究的主力军,彻底改变科学研究的方式。专家认为,未来的实验室将由 AI 算法驱动的自主系统和机器人实验员组成,实现全天候的科研工作。

划重点:

🧠2026年,AI 持续学习技术将全面实现,为自主研究奠定基础。

🤖2030年,全自动编程有望成为现实,AI 将取代人类程序员。

🏆 到2050年,AI 系统或将成为诺奖级科学研究的主要力量。


via AI新闻资讯 (author: AI Base)
月之暗面完成5亿美元C轮融资

最近,人工智能领域再传喜讯!月之暗面(Kimi)创始人兼 CEO 杨植麟于内部信中宣布,公司已经完成了 5 亿美元的 C 轮融资。此次融资由 IDG 领投,阿里、腾讯以及老股东王慧文等也纷纷追加投资,这无疑为公司的进一步发展注入了强劲动力。

这笔融资的成功,不仅使得 Kimi 的投后估值飙升至 43 亿美元(约合人民币 300 亿元),更为其未来的技术研发奠定了坚实的基础。杨植麟在信中提到,资金将主要用于扩增显卡和加速 K3 模型的训练与研发。这表明 Kimi 正计划在技术上采取更加激进的策略,以更快地推动其在人工智能领域的创新。

2025 年对于 Kimi 来说是一个不平凡的年份。公司在这一年内实现了多项技术突破,尤其是 K2 和 K2 Thinking 的发布,这标志着 Kimi 在追求通用人工智能(AGI)的道路上迈出了重要一步。接下来,杨植麟在信中强调,Kimi 的目标是超越 Anthropic 等前沿科技公司,成为全球领先的 AGI 公司。为了实现这一宏伟目标,2026 年将围绕三大战略方向进行推进。

随着 AI 技术的快速发展,月之暗面正处于行业竞争的最前沿。未来,Kimi 不仅希望在技术上实现突破,更期望能引领行业的发展趋势。公司正以开放的姿态迎接更多的挑战和机遇,力求在日益激烈的市场中站稳脚跟。

总的来说,这次融资是 Kimi 进一步扩大市场份额、提升技术实力的一个重要里程碑。在科技的浪潮中,Kimi 的前行之路备受期待,未来的发展也将引发更多行业内外的关注。

via AI新闻资讯 (author: AI Base)
AI助手Grok操控女性照片 马来西亚展开调查

大马通讯及多媒体委员会称,一名社媒 X 用户利用平台的人工智能聊天机器人Grok深度伪造女性照片,透过数字方式移除她们的衣物或头巾。大马通讯及多媒体委员会周六发文告表示,当局将就这起网络伤害事件,传召 X 平台代表到场说明。该委员会表示,制作或传播此类有害内容,将抵触《1998年通讯及多媒体法》第 233条文。该条文禁止滥用网络或应用来传播严重冒犯、猥亵或不雅的内容。该委员会同时敦促所有可在我国浏览的网络平台,遵循大马法律与网路安全标准,对其人工智能功能、聊天机器人以及图像处理工具实施防护措施。

—— 马来西亚 东方日报

via 风向旗参考快讯 - Telegram Channel
元象开源XVERSE-Ent大模型!聚焦泛娱乐场景,中英双语支持,填补行业专属模型空白

国产大模型生态再添重磅成员。元象科技(XVERSE)今日正式开源其聚焦泛娱乐领域的底座大模型——XVERSE-Ent,同步推出中文与英文双版本。该模型专为社交互动、游戏叙事、文化创作(含小说、剧本、短视频脚本等)等泛娱乐核心场景深度优化,支持轻量化部署与垂直领域快速落地,成为国内首个面向泛娱乐行业的专属开源大模型,填补了该领域高质量基础模型的空白。

 专为“好玩、好用、好共创”而生

不同于通用大模型追求广泛知识覆盖,XVERSE-Ent从训练数据、指令微调到评估体系,均围绕泛娱乐用户的核心需求构建:

- 社交互动:擅长生成自然、有趣、带情绪张力的对话,适用于虚拟角色、AI陪聊、社区内容生成;

- 游戏叙事:可自动生成任务剧情、NPC对话、世界观设定,支持多分支、多结局的动态故事引擎;

- 文化创作:在小说、剧本、动漫脚本等长文本创作中,具备强连贯性、风格模仿与节奏把控能力。

模型在训练中融入大量中文网络文学、剧本库、游戏对白及多语言影视文本,确保内容既符合本土文化语境,又具备国际化表达能力。

 轻量化+开源,降低泛娱乐AI门槛

XVERSE-Ent特别强调部署友好性与生态开放性:

- 提供7B、13B等多参数版本,可在消费级GPU或端侧设备运行;

- 采用商用友好的开源协议,允许开发者免费用于商业产品;

- 配套开放场景化微调模板与评估工具包,助力游戏公司、内容平台、创作者快速集成。

元象表示,XVERSE-Ent的目标是成为泛娱乐行业的“AI内容引擎”,让中小团队也能拥有媲美头部厂商的智能生成能力。

 AIbase观察:大模型进入“场景专属”时代

继金融、医疗、编程、教育等领域涌现垂直大模型后,泛娱乐——这个全球规模超万亿美元的产业——终于迎来专属AI基座。XVERSE-Ent的发布,标志着国产大模型正从“大而全”转向“专而精”,以场景深度替代参数规模,成为新的竞争焦点。

在AIGC加速重构内容生产流程的今天,谁能为创作者提供真正懂剧情、会互动、能共情的AI伙伴,谁就将掌握下一代数字娱乐的入口。而元象,正试图用开源策略,率先在这片蓝海插上旗帜。

via AI新闻资讯 (author: AI Base)
华为云具身机器人负责人朱森华离职创业,探索脑认知技术

据智能涌现消息,2025 年 10 月,华为云具身机器人负责人朱森华宣布离职,创立了名为 “具脑磐石” 的公司,致力于用脑认知技术改造机器人大脑。这一举动在人工智能与机器人领域引发了广泛关注。

朱森华是一位脑神经科学博士后,曾在华为云担任 AI 算法创新实验室主任,并领导华为云智能机器人业务的开创工作。他的团队成功开发出华为云的首个具身大模型,成为国内具身智能领域的重要创新者。朱森华在接受采访时表示,创业的时机已 “万事具备”,他希望通过 “具脑磐石” 引入人脑的认知神经机制,改进具身智能的算法架构,以实现更高效的智能系统。

“具脑磐石” 在成立两个月后已成功搭建核心团队,团队成员来自华为、联想、旷视等公司,拥有超过十年的 AI 与机器人研发经验。此外,公司近期也完成了数千万元的种子轮融资,投资方包括乐聚机器人、上海道禾、四川科创投等。

朱森华提到,当前具身智能技术主要依赖深度学习模型,但这条路径在数据需求和计算能力上存在限制。他希望通过脑认知启发的算法框架,减少对数据和算力的依赖,提升智能机器的泛化能力。他指出,人类大脑是最强的具身智能系统,借鉴其工作机制无疑是未来技术发展的重要方向。

随着具身智能在各行业的应用逐渐增多,朱森华认为,企业面临的主要挑战在于如何让客户愿意为尚未完全成熟的机器人技术付费。他以日本的便利店为例,指出在劳动力缺的背景下,具身机器人可以承担夜班值守等基础性工作,满足市场需求。

朱森华的创业计划已与国内多家上市公司达成合作,目标将首先聚焦亚太地区的商业服务与工业场景。未来 3 到 5 年,他预计将完成深度学习算法的更新换代,推动具身智能技术的进一步发展。

via AI新闻资讯 (author: AI Base)
🤖 通用人工智能(AGI):从边缘构想到全球科技行业核心叙事的演变

通用人工智能(AGI)已从二十年前的边缘构想演变为当今科技行业及全球经济的主导叙事。根据《麻省理工科技评论》的报道,AGI这一概念最早由研究员本·格策尔(Ben Goertzel)和谢恩·莱格(Shane Legg)在2007年提出,旨在描述一种能执行人类大脑几乎所有功能的假设性技术。尽管目前学术界对AGI尚无统一的科学定义,且该技术尚未真正实现,但包括OpenAI、Google DeepMind和Anthropic在内的顶尖AI公司负责人均已将其作为核心发展目标。OpenAI首席执行官萨姆·奥特曼(Sam Altman)预测AGI将极大增加社会繁荣,而Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)则将其智能程度比作“天才国家”。

这一愿景正驱动着庞大的资本投入与基础设施建设。OpenAI与英伟达近期宣布了高达1000亿美元的合作伙伴关系,旨在满足至少10吉瓦(GW)的电力需求;随后OpenAI又与AMD达成了涉及6吉瓦电力的合作。然而,文中指出AGI的叙事方式与阴谋论存在多处相似特性,包括其不可证伪性、对未来救赎或灾难的极端预测,以及对“隐藏真相”的追求。例如,以艾利泽·尤德科夫斯基(Eliezer Yudkowsky)为代表的“毁灭论者”认为AGI有极高概率导致人类灭绝,甚至主张通过国际禁令及武力手段阻止其开发。

这种对假设性技术的单一关注引发了多方担忧。社会学家和政策专家指出,对AGI的追求可能导致资源从医疗保健等实际应用领域流失,并使监管机构的注意力从当前的算法不平等、劳动力影响等紧迫问题转向遥远的生存风险。此外,AGI的“必然性”叙事被认为是一种商业策略,旨在吸引投资并招募顶尖人才。尽管GPT-4等模型展现了显著的能力,但专家提醒,智能并非可以单纯通过增加算力和数据就能无限叠加的商品,目前行业对AGI的追求在很大程度上建立在技术信仰而非确凿的证据之上。

(MIT Technology Review)

via 茶馆 - Telegram Channel
字节跳动推出 StoryMem 系统,解决 AI 视频生成中的角色一致性问题

近日,字节跳动与南洋理工大学的研究团队联合开发了一个新系统 StoryMem,旨在解决 AI 生成视频时角色在不同场景中外观不一致的问题。该系统通过在生成视频的过程中存储关键帧,并在后续场景生成时进行参考,从而保持角色和环境的一致性。

当前的 AI 视频生成模型,如 Sora、Kling 和 Veo,虽然在短片段生成方面表现出色,但在将多个场景拼接成连贯故事时,仍然存在角色外观变化、环境不一致等问题。以往的解决方案要么需要大量计算资源,要么会在拼接场景时失去一致性。

StoryMem 系统采用了一种新的方法。在生成视频的过程中,它会将视觉上重要的帧存储在内存中,并在生成新场景时进行参考。该系统的算法会智能选择重要帧,以确保内存的管理效率,同时保留故事开头的重要视觉信息。生成新场景时,这些存储的帧将与当前正在创建的视频一起输入模型,确保生成的内容保持一致。

在实际训练中,StoryMem 采用了低秩适应(LoRA)技术,以适应阿里巴巴开源模型 Wan2.2-I2V。研究团队使用了40万段每段五秒的视频片段进行训练,并通过视觉相似性对这些片段进行分组,从而使模型能够生成风格一致的续集。

根据研究结果,StoryMem 在跨场景一致性上显示了显著的提升,相较于未修改的基础模型提高了28.7% 的表现。此外,用户调查显示,参与者更倾向于选择 StoryMem 生成的结果,认为其在美观性和一致性上均表现更佳。

然而,研究团队也指出了该系统的一些局限性,比如在包含多个角色的复杂场景中,可能会出现角色视觉特征应用不当的情况。为此,建议在每个提示中明确描述角色,以提高生成效果。

项目:https://kevin-thu.github.io/StoryMem/

划重点:

🌟 StoryMem 系统能够有效解决 AI 视频生成中角色和环境不一致的问题。

📊 通过存储关键帧,StoryMem 在跨场景一致性方面比现有模型提升了28.7%。

🛠️ 该系统在处理复杂场景时仍面临挑战,需对角色进行明确描述以提升生成效果。


via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]