https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
音乐出版商起诉Anthropic公司指控其盗版
由 Concord 音乐集团和环球音乐集团牵头的一群音乐出版商正在起诉Anthropic,称这家公司非法下载了超过两万首受版权保护的歌曲,包括乐谱、歌词和音乐作品。这些出版商在周三的一份声明中表示,损害赔偿金额可能超过30亿美元,这将成为美国历史上规模最大的非集体诉讼版权案件之一。诉讼书中指出:“尽管 Anthropic 误导性地宣称自己是一家人工智能‘安全与研究’公司,但其擅自传播受版权保护作品的记录清楚地表明,其价值数十亿美元的商业帝国实际上建立在盗版行为之上。”诉讼还将 Anthropic CEO 达里奥·阿莫代和联合创始人本杰明·曼列为被告。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
由 Concord 音乐集团和环球音乐集团牵头的一群音乐出版商正在起诉Anthropic,称这家公司非法下载了超过两万首受版权保护的歌曲,包括乐谱、歌词和音乐作品。这些出版商在周三的一份声明中表示,损害赔偿金额可能超过30亿美元,这将成为美国历史上规模最大的非集体诉讼版权案件之一。诉讼书中指出:“尽管 Anthropic 误导性地宣称自己是一家人工智能‘安全与研究’公司,但其擅自传播受版权保护作品的记录清楚地表明,其价值数十亿美元的商业帝国实际上建立在盗版行为之上。”诉讼还将 Anthropic CEO 达里奥·阿莫代和联合创始人本杰明·曼列为被告。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
近日,腾讯旗下AI助手“元宝”内测的社交功能**“元宝派”**因公测版本截图泄露成为行业焦点。此次泄露的核心看点在于其深度的生态整合与社交壁垒的突破。
在功能层面,“元宝派”新增了**“一起听音乐”与“一起看视频”**功能。该功能疑似打通了QQ音乐与腾讯视频的资源库,支持好友同步观影、听歌并实时互动。更具颠覆性的是,“元宝派”实现了跨平台社交整合,用户可通过专属链接将微信与QQ好友拉入同一群组,首次打破了两大社交生态的长期隔阂。
此外,AI在群聊中扮演了“活跃分子”的角色。元宝不仅能提供智能总结、任务监督等工具化服务,还能进行图片二创生成梗图,甚至在冷场时主动“抛梗”调节气氛。
据ZEALER透露,马化腾计划投入10亿红包资源推广该功能,意图借春节时机复刻社交奇迹。目前,该功能仍处于内测阶段,其“人+AI+人”的三角互动模式能否引领社交赛道的新变革,值得市场持续关注。
via AI新闻资讯 (author: AI Base)
商汤重磅开源 SenseNova-MARS:开启多模态自主推理新篇章
2026年1月29日,商汤科技正式宣布开源其多模态自主推理模型 SenseNova-MARS,并同步提供8B 和32B 两个版本。这款模型的发布,标志着多模态大模型在自主推理领域迈出了关键一步。
技术突破:首个 Agentic VLM 模型
SenseNova-MARS在技术架构上实现了显著创新,是行业内首个将动态视觉推理与图文搜索深度融合的 Agentic VLM(智能体视觉语言模型)。
自主推理:模型不仅能理解图像内容,更具备类似智能体的自主规划与推理能力。
深度融合:通过将实时搜索能力融入视觉理解过程,模型能够处理需要外部知识支撑的复杂视觉任务。
行业影响与意义
商汤此次选择双版本开源,旨在为全球开发者提供更具灵活性的研究工具:
8B 版本:兼顾性能与效率,适合在端侧设备或有限算力环境下部署。
32B 版本:提供更强大的逻辑推理上限,满足复杂行业应用的需求。
via AI新闻资讯 (author: AI Base)
2026年1月29日,商汤科技正式宣布开源其多模态自主推理模型 SenseNova-MARS,并同步提供8B 和32B 两个版本。这款模型的发布,标志着多模态大模型在自主推理领域迈出了关键一步。
技术突破:首个 Agentic VLM 模型
SenseNova-MARS在技术架构上实现了显著创新,是行业内首个将动态视觉推理与图文搜索深度融合的 Agentic VLM(智能体视觉语言模型)。
自主推理:模型不仅能理解图像内容,更具备类似智能体的自主规划与推理能力。
深度融合:通过将实时搜索能力融入视觉理解过程,模型能够处理需要外部知识支撑的复杂视觉任务。
行业影响与意义
商汤此次选择双版本开源,旨在为全球开发者提供更具灵活性的研究工具:
8B 版本:兼顾性能与效率,适合在端侧设备或有限算力环境下部署。
32B 版本:提供更强大的逻辑推理上限,满足复杂行业应用的需求。
via AI新闻资讯 (author: AI Base)
英国敦促谷歌允许网站选择退出AI概览功能
英国政府表示希望谷歌调整其搜索服务,为企业和消费者提供更多选择,包括允许出版商 “选择退出” 其内容被用于谷歌的AI概览功能或被用于训练独立AI模型。谷歌在英国占据超过90%搜索查询份额,其利用其搜索爬虫收集的内容构建 AI概述功能和AI模型,及其Gemini AI助手等独立产品。由于用户依赖借助AI生成的概览,新闻网站和其他出版商的点击率已出现大幅下降。竞争与市场管理局希望通过允许出版商 “选择退出” 谷歌的AI功能来调整这一平衡,同时不影响其在常规搜索中的排名。该机构还提议进行改革,以确保搜索结果排序的公平性与透明度,并让人们能更轻松地选择其他搜索引擎。
—— 路透社
via 风向旗参考快讯 - Telegram Channel
英国政府表示希望谷歌调整其搜索服务,为企业和消费者提供更多选择,包括允许出版商 “选择退出” 其内容被用于谷歌的AI概览功能或被用于训练独立AI模型。谷歌在英国占据超过90%搜索查询份额,其利用其搜索爬虫收集的内容构建 AI概述功能和AI模型,及其Gemini AI助手等独立产品。由于用户依赖借助AI生成的概览,新闻网站和其他出版商的点击率已出现大幅下降。竞争与市场管理局希望通过允许出版商 “选择退出” 谷歌的AI功能来调整这一平衡,同时不影响其在常规搜索中的排名。该机构还提议进行改革,以确保搜索结果排序的公平性与透明度,并让人们能更轻松地选择其他搜索引擎。
—— 路透社
via 风向旗参考快讯 - Telegram Channel
长期以来,建筑业一直被视为数字化转型的“慢热者”,受困于成本超支、项目延期及劳动力短缺等顽疾。然而,这一局面正在被彻底打破。根据Persistence Market Research的最新预测,全球建筑业人工智能(AI)市场将迎来爆发式增长:预计到2026年市场规模将达 62亿美元,而到2033年将攀升至 320亿美元,复合年增长率(CAGR)高达 26.4%。
核心驱动:从“经验驱动”转向“数据驱动”
建筑公司正通过集成机器学习、计算机视觉和自然语言处理(NLP)等技术,在项目的全生命周期中寻找突破口:
● 规划与设计: 软件平台凭借可扩展性占据市场主导。通过与Autodesk等建筑信息模型(BIM)集成,AI能在开工前优化预算与资源分配。
● 现场执行与安全: 计算机视觉技术正快速普及,通过分析现场图像实时监控安全隐患,并检测实际进度与设计方案的偏差。
● 资产管理: 数字孪生技术与 AI 的结合,为后期设施的预测性维护提供了核心支撑。
市场格局:北美领跑,亚太增速最快
从全球视角来看,北美凭借成熟的数字化生态系统和风险投资支持,目前保持领先地位。但亚太地区(中国、印度、日本)受益于大规模城市化进程及政府对智慧基建的投入,正成为全球增长最快的区域。
挑战与机遇并存
尽管前景广阔,但行业仍面临高昂的初期实施成本、碎片化的非结构化数据以及传统企业内部的变革阻力。然而,随着云计算降低准入门槛,以及Oracle、IBM和Microsoft等科技巨头持续深耕,建筑业的“端到端数字化生态”已初具雏形。
via AI新闻资讯 (author: AI Base)
商汤开源 SenseNova-MARS:Agentic VLM 赋予 AI 独立“思考与行动”力
2026年1月30日,商汤科技正式开源了其首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。该模型包含8B 和32B 两个版本,通过模拟“侦探破案”般的逻辑,实现了 AI 从单纯“理解”到自主“执行”的跨越。
性能飞跃:在多项榜单超越 GPT-5.2
在最新的行业基准测试中,SenseNova-MARS展现出了惊人的竞技状态:
搜索推理登顶:在 MMSearch(图文搜索核心评测)中以74.27分 登顶,显著超过GPT-5.2的66.08分。
细节搜寻领跑:在 HR-MMSearch(高清细节搜索评测)中获得54.43分,拉开了与主流闭源模型的差距。
多维能力验证:在 FVQA、InfoSeek 等多个权威视觉理解榜单中,均取得了开源模型中的 SOTA(当前最佳) 成绩。
核心黑科技:像人类一样协同工具
SenseNova-MARS的独特之处在于其“自主规划”能力,能够自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂长链条任务:
图像细节裁剪:能聚焦占比不到5% 的微小细节(如赛车手服上的 Logo),并自动放大分析。
动态图文搜索:在识别物体或人物的瞬间,自动匹配全球范围内的相关信息,如设备型号或行业数据。
多跳深度推理:面对需要“先放大、再识别、最后查背景”的任务不再束手无策,具备极强的“工具使用直觉”。
训练秘籍:“因材施教”的双阶段演进
商汤研究团队通过两阶段训练,赋予了模型严密的逻辑链条:
第一阶段(打基础):利用自动化数据合成引擎构建“高难度案例库”,让 AI 学习基本的多跳搜索逻辑,确保起步即面对真实复杂场景。
第二阶段(练实战):引入 BN-GSPO 算法进行强化学习,像训练侦探一样,通过奖励机制平滑波动,让模型在处理各类问题时都能保持稳定进步。
拥抱开源:助力全球开发者
目前,商汤已将SenseNova-MARS的模型、代码及数据集全量开源。开发者可直接通过 Hugging Face 下载,共同探索具身智能与自主 Agent 的无限可能。
via AI新闻资讯 (author: AI Base)
2026年1月30日,商汤科技正式开源了其首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS。该模型包含8B 和32B 两个版本,通过模拟“侦探破案”般的逻辑,实现了 AI 从单纯“理解”到自主“执行”的跨越。
性能飞跃:在多项榜单超越 GPT-5.2
在最新的行业基准测试中,SenseNova-MARS展现出了惊人的竞技状态:
搜索推理登顶:在 MMSearch(图文搜索核心评测)中以74.27分 登顶,显著超过GPT-5.2的66.08分。
细节搜寻领跑:在 HR-MMSearch(高清细节搜索评测)中获得54.43分,拉开了与主流闭源模型的差距。
多维能力验证:在 FVQA、InfoSeek 等多个权威视觉理解榜单中,均取得了开源模型中的 SOTA(当前最佳) 成绩。
核心黑科技:像人类一样协同工具
SenseNova-MARS的独特之处在于其“自主规划”能力,能够自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂长链条任务:
图像细节裁剪:能聚焦占比不到5% 的微小细节(如赛车手服上的 Logo),并自动放大分析。
动态图文搜索:在识别物体或人物的瞬间,自动匹配全球范围内的相关信息,如设备型号或行业数据。
多跳深度推理:面对需要“先放大、再识别、最后查背景”的任务不再束手无策,具备极强的“工具使用直觉”。
训练秘籍:“因材施教”的双阶段演进
商汤研究团队通过两阶段训练,赋予了模型严密的逻辑链条:
第一阶段(打基础):利用自动化数据合成引擎构建“高难度案例库”,让 AI 学习基本的多跳搜索逻辑,确保起步即面对真实复杂场景。
第二阶段(练实战):引入 BN-GSPO 算法进行强化学习,像训练侦探一样,通过奖励机制平滑波动,让模型在处理各类问题时都能保持稳定进步。
拥抱开源:助力全球开发者
目前,商汤已将SenseNova-MARS的模型、代码及数据集全量开源。开发者可直接通过 Hugging Face 下载,共同探索具身智能与自主 Agent 的无限可能。
via AI新闻资讯 (author: AI Base)
Anthropic与五角大楼就AI使用限制产生分歧
去年夏天,Anthropic获得美国国防部一份价值两亿美元的合同。如今该公司与五角大楼的关系陷入困境。据知情人士透露,该公司和五角大楼在关于如何使用Anthropic技术的合同条款上存在分歧。合同授予后,该公司与美国政府的紧张关系几乎立即开始,部分原因是Anthropic的条款和条件规定,Claude不能用于任何与国内监控相关的行动。这限制了美国移民海关执法局和联邦调查局等执法机构部署该技术的程度。Anthropic对AI安全应用的关注,以及其反对将技术用于自主致命行动的做法,持续引发问题。一些政府官员不满该公司规定了其技术可如何使用。
—— 华尔街日报
via 风向旗参考快讯 - Telegram Channel
去年夏天,Anthropic获得美国国防部一份价值两亿美元的合同。如今该公司与五角大楼的关系陷入困境。据知情人士透露,该公司和五角大楼在关于如何使用Anthropic技术的合同条款上存在分歧。合同授予后,该公司与美国政府的紧张关系几乎立即开始,部分原因是Anthropic的条款和条件规定,Claude不能用于任何与国内监控相关的行动。这限制了美国移民海关执法局和联邦调查局等执法机构部署该技术的程度。Anthropic对AI安全应用的关注,以及其反对将技术用于自主致命行动的做法,持续引发问题。一些政府官员不满该公司规定了其技术可如何使用。
—— 华尔街日报
via 风向旗参考快讯 - Telegram Channel
今年一月OpenAI Sora安装量环比下降45%
OpenAI的视频生成应用Sora在去年十月迅速登上苹果 App Store 榜首后,目前正面临困境。最新数据显示,随着人们对这款AI视频社交网络的早期热捧逐渐消退,该应用的下载量和用户消费额均出现下降。市场情报提供商Appfigures的数据显示,Sora在去年十二月的下载量环比下降32%。这一情况令人担忧,因为节假日通常是移动应用的增长契机,人们会收到新的智能手机作为礼物,而且往往有休假时间,从而更可能安装新应用和游戏。下降趋势持续至2026年一月,安装量环比减少 45%,降至 120万次。用户消费额同样出现下滑,截至一月环比下降32%。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
OpenAI的视频生成应用Sora在去年十月迅速登上苹果 App Store 榜首后,目前正面临困境。最新数据显示,随着人们对这款AI视频社交网络的早期热捧逐渐消退,该应用的下载量和用户消费额均出现下降。市场情报提供商Appfigures的数据显示,Sora在去年十二月的下载量环比下降32%。这一情况令人担忧,因为节假日通常是移动应用的增长契机,人们会收到新的智能手机作为礼物,而且往往有休假时间,从而更可能安装新应用和游戏。下降趋势持续至2026年一月,安装量环比减少 45%,降至 120万次。用户消费额同样出现下滑,截至一月环比下降32%。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
腾讯在 AI 人才版图上再下一城。2026年1月30日,清华大学计算机系博士、前新加坡 Sea AI Lab 高级研究科学家庞天宇宣布,将于2月4日正式入职腾讯。他将出任腾讯混元大模型团队首席研究科学家,并兼任多模态强化学习技术负责人。
人物履历:从清华学霸到顶级科学家
庞天宇是机器学习领域的知名青年学者,其履历极具含金量:
学术背景:1995年出生,高一即获得保送清华资格。2017年本科毕业于清华数理基科班,2022年取得清华计算机系博士学位,师从朱军教授。
研究成就:长期深耕机器学习鲁棒性与深度学习领域,在 ICML、NeurIPS 等国际 AI 顶级会议上发表论文70余篇,总引用次数已超过1.5万次。
业界荣誉:曾荣获微软学者奖学金、百度奖学金、英伟达学术先锋奖及 CAAI 优秀博士论文等数项重量级奖项。
职业轨迹:博士毕业后曾任职于新加坡 Sea AI Lab,主攻可信机器学习与生成式模型。
职责定位:深耕多模态与强化学习
在加盟腾讯混元团队后,庞天宇将主要负责多模态模型的强化学习研究:
研发重心:前期将聚焦于生成模型技术的突破。
团队架构:他所领衔的混元多模态部 Exploration Center,主要职能是承担强化学习前沿算法的探索任务。
腾讯混元大模型的“人才拼图”
此次庞天宇的加盟,是腾讯近期一系列“人才强基”动作的延续:
人才高地:2025年12月,前 OpenAI 研究员姚顺雨入职腾讯任首席 AI 科学家。马化腾曾表示,腾讯已通过人才引进完成了混元大模型的“深度重构”。
技术成果:1月28日,腾讯宣布开源混元图像3.0图生图版本,该模型已在国际图像编辑榜单进入第一梯队,并已接入 AI 助手“元宝”。
随着多位顶尖专家的加入,腾讯混元大模型正通过强化学习与多模态技术的深度融合,加速追赶全球 AI 技术的第一阵营。
via AI新闻资讯 (author: AI Base)
大厂抢人:清华学术新星庞天宇加盟腾讯混元,领军多模态RL研究
近日,AI学术界与产业界传来重磅消息,MLNLP学术委员、资深研究员庞天宇正式宣布加入腾讯混元(Tencent Hunyuan),出任首席研究科学家及多模态强化学习(Multimodal RL)技术负责人。目前,庞天宇已全面开启AI高端人才招聘,旨在组建顶尖团队,攻坚多模态生成与理解模型的前沿难题。
庞天宇履历极其亮眼,他是清华大学计算机系2017级直博生,师从著名学者朱军教授。在校期间,他深耕机器学习及深度学习鲁棒性领域,以第一作者身份在ICML、NeurIPS、ICLR等顶会发表多篇Oral及Spotlight论文,并曾斩获微软学者奖学金及英伟达学术先锋奖。在加入腾讯前,他曾担任新加坡Sea AI实验室高级研究科学家,具备深厚的学术积淀与工业界经验。
据悉,庞天宇在腾讯混元的工作将重点聚焦于强化学习与多模态模型的深度融合,涵盖扩散模型(Diffusion Models)与视觉语言模型(VLMs)等核心方向。此次“强强联合”标志着腾讯混元在多模态大模型技术攻关上更进一步。
via AI新闻资讯 (author: AI Base)
近日,AI学术界与产业界传来重磅消息,MLNLP学术委员、资深研究员庞天宇正式宣布加入腾讯混元(Tencent Hunyuan),出任首席研究科学家及多模态强化学习(Multimodal RL)技术负责人。目前,庞天宇已全面开启AI高端人才招聘,旨在组建顶尖团队,攻坚多模态生成与理解模型的前沿难题。
庞天宇履历极其亮眼,他是清华大学计算机系2017级直博生,师从著名学者朱军教授。在校期间,他深耕机器学习及深度学习鲁棒性领域,以第一作者身份在ICML、NeurIPS、ICLR等顶会发表多篇Oral及Spotlight论文,并曾斩获微软学者奖学金及英伟达学术先锋奖。在加入腾讯前,他曾担任新加坡Sea AI实验室高级研究科学家,具备深厚的学术积淀与工业界经验。
据悉,庞天宇在腾讯混元的工作将重点聚焦于强化学习与多模态模型的深度融合,涵盖扩散模型(Diffusion Models)与视觉语言模型(VLMs)等核心方向。此次“强强联合”标志着腾讯混元在多模态大模型技术攻关上更进一步。
via AI新闻资讯 (author: AI Base)
月之暗面近日宣布,旗下最强编程模型、原生多模态大模型 Kimi K2.5正式接入 Kimi Code。为了庆祝这一技术跨越,官方同步推出了限时福利与重磅计费调整,旨在为开发者提供更畅快、更精准的 AI 编程体验。
性能飞跃:K2.5赋予编程新动能
作为 Kimi 家族的最新力作,K2.5模型在视觉理解、复杂代码逻辑和 Agent 集群能力上实现了显著突破。此次接入 Kimi Code,意味着开发者在处理多模态输入(如解析 UI 设计稿生成代码)以及应对高难度编程任务时,将获得更精准的响应和更强大的逻辑支持。
为了回馈用户,Kimi Code 开启了限时优惠活动:即日起至2026年2月28日,无论是新用户还是老用户,均可享受最高平时3倍的使用额度。更重要的是,本次活动取消了限速和购买限制,力求让每一位开发者都能在全速状态下体验 K2.5带来的高效产出。
计费变革:从“按次”转向“按 Token”
针对用户反馈,Kimi Code 完成了一项关键优化:正式取消基于请求次数的计费方案,全面切换为更科学、透明的 Token 计费模式。
● 按需扣减: 额度将严格根据用户实际输入和输出的长度计算。
● 精准算力: 简单的提问将仅消耗极少 Token,而复杂的任务则能获得更充足的发挥空间。
简单来说,新的计费方式让额度变得更“耐用”,确保每一分算力都精准服务于实际开发需求。目前,用户的所有配额已按照新方式重置,开发者可以立即访问 Kimi Code 官网,开启高效的 Happy Coding 模式。
via AI新闻资讯 (author: AI Base)
🌐 Google DeepMind 发布 Project Genie:可交互的实时生成式世界模型
Google DeepMind 近日推出实验性研究原型 Project Genie(Genie 3),该系统被定义为一种“世界模型”,能够根据文本提示或图像实时生成连贯、可导航且具有照片级真实感的虚拟环境。用户可以作为智能体在生成的空间中移动并进行交互,系统会根据用户的动作指令(如移动、跳跃)预测并渲染后续状态,确保物理因果关系在短时间内保持一致。
技术实现上,Genie 3 采用扩散变换器(Diffusion Transformer)架构,通过潜在动作和帧序列预测世界状态。与需要显式 3D 表示的 NeRF 或高斯泼溅技术不同,Genie 的环境一致性属于涌现能力,完全基于帧对帧的生成。目前该原型支持 720p 分辨率,控制延迟低于 10FPS,最大上下文滚动长度为 60 秒。
该模型的核心研发目标并非单纯的娱乐产品,而是作为下一代 AI 和机器人系统的“想象力”训练场。通过在模拟世界中运行大量潜在行动方案,智能体可以学习处理复杂任务并预测后果,从而降低现实开发成本。在应用前景方面,该技术被认为将革新游戏开发、电影制作及工业仿真领域,例如通过单张照片快速构建可交互的 3D 场景。
然而,该技术也引发了广泛的专业讨论与质疑。部分技术评论者指出,Genie 本质上是基于视频数据的“幻觉模拟”,而非基于严谨物理定律的引擎,因此在处理复杂流体动力学或长期环境一致性时仍存在局限和漂移现象。此外,高昂的计算成本、能源消耗以及可能带来的数字成瘾和虚假信息风险也是讨论的焦点。在行业竞争层面,Genie 的路线与 Meta 首席科学家 Yann LeCun 倡导的非生成式世界模型(如 JEPA)形成对比,反映了当前 AI 领域对实现通用人工智能(AGI)路径的不同探索。
(HackerNews)
via 茶馆 - Telegram Channel
Google DeepMind 近日推出实验性研究原型 Project Genie(Genie 3),该系统被定义为一种“世界模型”,能够根据文本提示或图像实时生成连贯、可导航且具有照片级真实感的虚拟环境。用户可以作为智能体在生成的空间中移动并进行交互,系统会根据用户的动作指令(如移动、跳跃)预测并渲染后续状态,确保物理因果关系在短时间内保持一致。
技术实现上,Genie 3 采用扩散变换器(Diffusion Transformer)架构,通过潜在动作和帧序列预测世界状态。与需要显式 3D 表示的 NeRF 或高斯泼溅技术不同,Genie 的环境一致性属于涌现能力,完全基于帧对帧的生成。目前该原型支持 720p 分辨率,控制延迟低于 10FPS,最大上下文滚动长度为 60 秒。
该模型的核心研发目标并非单纯的娱乐产品,而是作为下一代 AI 和机器人系统的“想象力”训练场。通过在模拟世界中运行大量潜在行动方案,智能体可以学习处理复杂任务并预测后果,从而降低现实开发成本。在应用前景方面,该技术被认为将革新游戏开发、电影制作及工业仿真领域,例如通过单张照片快速构建可交互的 3D 场景。
然而,该技术也引发了广泛的专业讨论与质疑。部分技术评论者指出,Genie 本质上是基于视频数据的“幻觉模拟”,而非基于严谨物理定律的引擎,因此在处理复杂流体动力学或长期环境一致性时仍存在局限和漂移现象。此外,高昂的计算成本、能源消耗以及可能带来的数字成瘾和虚假信息风险也是讨论的焦点。在行业竞争层面,Genie 的路线与 Meta 首席科学家 Yann LeCun 倡导的非生成式世界模型(如 JEPA)形成对比,反映了当前 AI 领域对实现通用人工智能(AGI)路径的不同探索。
(HackerNews)
via 茶馆 - Telegram Channel
据CNBC报道,OpenAI周四宣布,将从下个月起在其ChatGPT聊天机器人中停用多个模型,包括一些用户十分喜爱的GPT‑4o模型。OpenAI在2024年5月推出了GPT‑4o大模型,其亲切的对话风格在部分付费用户中非常受欢迎。然而去年8月,在推出新模型GPT‑5后,OpenAI曾短暂关闭GPT‑4o的访问权限,引发了用户的不满。
随后,OpenAI迅速为付费用户恢复了GPT‑4o的访问权限,CEO萨姆·奥特曼(Sam Altman)承诺,如果公司未来决定停用该模型,将会提前充分通知用户。
这一天终于到来。OpenAI周四表示,目前每天仅有0.1%的用户选择使用GPT-4o,而“绝大多数”人都在使用其GPT-5.2模型。OpenAI称,近几个月来,公司已在模型个性、定制化和创意构思方面进行了改进,因此认为正式停用GPT-4o的时机已经成熟。
除了GPT-4o,OpenAI还表示GPT-4.1、GPT-4.1 mini以及OpenAI o4-mini也将从ChatGPT中停用。该公司此前已宣布,GPT-5 Instant和GPT-5 Thinking同样会从该聊天机器人中移除。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:凤凰网科技)
微软公司股价周四遭遇抛售,市值大减3570亿美元,单日缩水金额在股市史上高居第二。受周三盘后公布的财报影响,这家软件巨头收盘下跌10%,创2020年3月以来最大跌幅。财报显示,微软人工智能(AI)支出创纪录,而核心的云业务部门增长放缓。
历史上唯一一次市值单日缩水金额比这更大的,是英伟达去年在DeepSeek推出低成本AI模型后创下的5930亿美元纪录。彭博汇编的数据显示,微软市值变动金额超过了逾90%的标普500指数成分股的市值本身。
其他一些科技股也感受到了这股寒气。Alphabet和英伟达市值周四均一度蒸发超过1000亿美元。Alphabet股价随后反弹,最终收涨0.7%,亚马逊股价下跌0.5%。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
游戏开发者集体“投反对票”:超半数从业者看衰生成式 AI
随着生成式 AI 技术在游戏开发各环节的渗透,从业者的抵触情绪正以前所未有的速度蔓延。根据游戏开发者大会(GDC)最新发布的调查报告,52% 的受访开发者认为生成式 AI 对游戏行业产生了“负面”影响,而持正面看法的仅占 7%。这一数据反映出行业内部对技术变革的深刻焦虑。
回顾过去三年的数据,这种负面情绪呈现出爆发式增长:2024 年仅有 18% 的人持负面看法,2025 年上升至 30%,而到了 2026 年,这一数字已然过半。尽管 EA 和 Krafton 等大厂高管积极拥抱 AI,但身处一线的开发者显然有着截然不同的体感。
工具还是威胁?AI 在开发中的尴尬地位
在参与调查的 2,300 名行业专业人士中,约有 36% 的人在工作中使用 AI,而 64% 的人仍保持距离。在实际应用中,AI 主要被用于辅助性任务:
● 81% 的使用者将其用于研究和头脑风暴;
● 47% 用于处理邮件等行政琐事;
● 仅有 19% 用于资产生成,而在面向玩家的核心功能开发上,使用比例仅为 5%。
除了 AI 带来的技术冲击,持续不断的裁员浪潮也是开发者悲观情绪的重要来源。调查显示,17% 的受访者在过去一年内遭遇过裁员,而过去两年内曾被裁员的比例更是高达 28%。这种不确定性让 23% 的从业者预计未来一年还将有更多裁员发生。
教育领域同样传递出寒意。超过 60% 的教育工作者和学生认为,当前的行业现状让毕业生极难找到工作,甚至有资深教育者直言,“大多数学生未来可能根本无法进入游戏开发领域”。
via AI新闻资讯 (author: AI Base)
随着生成式 AI 技术在游戏开发各环节的渗透,从业者的抵触情绪正以前所未有的速度蔓延。根据游戏开发者大会(GDC)最新发布的调查报告,52% 的受访开发者认为生成式 AI 对游戏行业产生了“负面”影响,而持正面看法的仅占 7%。这一数据反映出行业内部对技术变革的深刻焦虑。
回顾过去三年的数据,这种负面情绪呈现出爆发式增长:2024 年仅有 18% 的人持负面看法,2025 年上升至 30%,而到了 2026 年,这一数字已然过半。尽管 EA 和 Krafton 等大厂高管积极拥抱 AI,但身处一线的开发者显然有着截然不同的体感。
工具还是威胁?AI 在开发中的尴尬地位
在参与调查的 2,300 名行业专业人士中,约有 36% 的人在工作中使用 AI,而 64% 的人仍保持距离。在实际应用中,AI 主要被用于辅助性任务:
● 81% 的使用者将其用于研究和头脑风暴;
● 47% 用于处理邮件等行政琐事;
● 仅有 19% 用于资产生成,而在面向玩家的核心功能开发上,使用比例仅为 5%。
除了 AI 带来的技术冲击,持续不断的裁员浪潮也是开发者悲观情绪的重要来源。调查显示,17% 的受访者在过去一年内遭遇过裁员,而过去两年内曾被裁员的比例更是高达 28%。这种不确定性让 23% 的从业者预计未来一年还将有更多裁员发生。
教育领域同样传递出寒意。超过 60% 的教育工作者和学生认为,当前的行业现状让毕业生极难找到工作,甚至有资深教育者直言,“大多数学生未来可能根本无法进入游戏开发领域”。
via AI新闻资讯 (author: AI Base)
工业质检新突破:海康威视发布“AI质检员”,精准解决包装防错难题
近日,杭州海康威视数字技术股份有限公司正式推出全新的 AI 质检系统。该系统依托其自研的 “观澜”工业大模型,旨在通过智能化的视觉检测手段,彻底解决制造业在配件包装环节中的错漏装痛点。
技术核心:观澜大模型深度赋能
与传统质检方式相比,这款“AI 质检员”展现出了显著的技术优势:
智能识别与报警:系统通过拍照即可精准识别配件的种类与数量,一旦发现错装或漏装,将立即触发报警机制。
全场景适配:无论是配件平铺还是复杂的堆叠场景,系统均能保持高准确率,即便是形状不规则的配件也能被精准锁定。
极速部署与切换:该系统支持在分钟级内完成部署,并能根据产线的实时变化自动切换检测模型,极大地提升了生产灵活性。
行业痛点:从“人工抽检”到“智能全检”
传统的质检方式往往依赖人工,存在耗时长、易疲劳、数据追溯难以及无法快速识别具体细分品类等缺陷。海康威视的新系统实现了100% 全检,不仅提升了质检效率,更通过数字化手段确保了生产链路的可追溯性。
应用版图:覆盖多场景工业制造
目前,这一 AI 质检技术已在多个工厂成功落地,并广泛应用于以下领域:
汽车零部件生产:确保精密零件在出厂前的包装准确性。
电子产品组装:在高速产线上实现对微小配件的精准防错。
多元工业制造:服务于各类对包装精度有严格要求的制造环节。
海康威视通过“观澜”大模型的应用,再次证明了 AI 技术在垂直工业领域深耕的巨大潜力,为制造业的数智化转型提供了强有力的工具保障。
via AI新闻资讯 (author: AI Base)
近日,杭州海康威视数字技术股份有限公司正式推出全新的 AI 质检系统。该系统依托其自研的 “观澜”工业大模型,旨在通过智能化的视觉检测手段,彻底解决制造业在配件包装环节中的错漏装痛点。
技术核心:观澜大模型深度赋能
与传统质检方式相比,这款“AI 质检员”展现出了显著的技术优势:
智能识别与报警:系统通过拍照即可精准识别配件的种类与数量,一旦发现错装或漏装,将立即触发报警机制。
全场景适配:无论是配件平铺还是复杂的堆叠场景,系统均能保持高准确率,即便是形状不规则的配件也能被精准锁定。
极速部署与切换:该系统支持在分钟级内完成部署,并能根据产线的实时变化自动切换检测模型,极大地提升了生产灵活性。
行业痛点:从“人工抽检”到“智能全检”
传统的质检方式往往依赖人工,存在耗时长、易疲劳、数据追溯难以及无法快速识别具体细分品类等缺陷。海康威视的新系统实现了100% 全检,不仅提升了质检效率,更通过数字化手段确保了生产链路的可追溯性。
应用版图:覆盖多场景工业制造
目前,这一 AI 质检技术已在多个工厂成功落地,并广泛应用于以下领域:
汽车零部件生产:确保精密零件在出厂前的包装准确性。
电子产品组装:在高速产线上实现对微小配件的精准防错。
多元工业制造:服务于各类对包装精度有严格要求的制造环节。
海康威视通过“观澜”大模型的应用,再次证明了 AI 技术在垂直工业领域深耕的巨大潜力,为制造业的数智化转型提供了强有力的工具保障。
via AI新闻资讯 (author: AI Base)
谷歌发出预警:强化 AI 内容监管或导致搜索引擎业务“崩溃”
近日,谷歌针对日益严格的 AI 内容抓取监管政策公开发声,警告若监管机构强制推行过度的内容保护措施,可能会对其核心搜索引擎业务造成毁灭性冲击,甚至导致系统“崩溃”。
监管风暴:出版商的“反击”
这一言论的背景是英国反垄断机构拟定的一项新规。该规则核心在于:
控制权移交:旨在赋予出版商更多话语权,使其能够控制谷歌AI 搜索功能(如 AI 概览、AI Mode)如何使用其内容。
利益博弈:内容所有者希望在限制 AI 爬取数据以训练模型的同时,又不影响网页在传统搜索结果中的呈现。
谷歌的困境:AI 与搜索的深度纠缠
面对压力,谷歌表示正在研发允许网站自主限制 AI 访问的新机制,但同时也强调了其中的技术与业务风险:
利润核心受威胁:过度严苛的规则将直接动摇谷歌利润最丰厚的搜索业务基础。
难以强行剥离:谷歌认为 AI 已与搜索高度融合,强行区分两者可能破坏信息获取效率,导致搜索质量下降,并影响网站的被发现概率。
用户体验受损:任何破坏搜索基础机制的措施,最终都将由用户体验的下滑来买单。
行业影响与反思
谷歌的此次预警反映了生成式 AI 时代下,科技巨头与内容生产者之间愈发尖锐的矛盾。如何在保护知识产权与维持高效信息流通之间寻找平衡,已成为监管机构面临的巨大挑战。
via AI新闻资讯 (author: AI Base)
近日,谷歌针对日益严格的 AI 内容抓取监管政策公开发声,警告若监管机构强制推行过度的内容保护措施,可能会对其核心搜索引擎业务造成毁灭性冲击,甚至导致系统“崩溃”。
监管风暴:出版商的“反击”
这一言论的背景是英国反垄断机构拟定的一项新规。该规则核心在于:
控制权移交:旨在赋予出版商更多话语权,使其能够控制谷歌AI 搜索功能(如 AI 概览、AI Mode)如何使用其内容。
利益博弈:内容所有者希望在限制 AI 爬取数据以训练模型的同时,又不影响网页在传统搜索结果中的呈现。
谷歌的困境:AI 与搜索的深度纠缠
面对压力,谷歌表示正在研发允许网站自主限制 AI 访问的新机制,但同时也强调了其中的技术与业务风险:
利润核心受威胁:过度严苛的规则将直接动摇谷歌利润最丰厚的搜索业务基础。
难以强行剥离:谷歌认为 AI 已与搜索高度融合,强行区分两者可能破坏信息获取效率,导致搜索质量下降,并影响网站的被发现概率。
用户体验受损:任何破坏搜索基础机制的措施,最终都将由用户体验的下滑来买单。
行业影响与反思
谷歌的此次预警反映了生成式 AI 时代下,科技巨头与内容生产者之间愈发尖锐的矛盾。如何在保护知识产权与维持高效信息流通之间寻找平衡,已成为监管机构面临的巨大挑战。
via AI新闻资讯 (author: AI Base)