https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
谷歌DeepMind新研究TIPSv2:让AI真正"看懂"图片,而不只是"扫一眼"

现在的AI看图,其实有个隐藏的短板。

问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。

谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。

研究团队在调查中发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于,蒸馏过程移除了遮盖机制,迫使模型学习整张图的所有细节,形成了"全区域监督"。受此启发,TIPSv2围绕这一发现做出了三项关键改进。

第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。

第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。

论文地址:https://www.alphaxiv.org/abs/2604.12012

via AI新闻资讯 (author: AI Base)
京东发布JoyEgoCam超高清采集终端 构建具身智能训练闭环

4月16日,京东在具身智能生态发布会上正式推出JoyEgoCam超高清采集终端。作为专门针对AI具身智能训练开发的硬件产品,JoyEgoCam不仅标志着超高清采集技术的落地,更成为了全球首个覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,旨在打通从物理世界数据获取到模型仿真评测的全闭环路径。

技术参数方面,JoyEgoCam表现出极强的工业级性能。该设备配备双目摄像头,实现了垂直与水平方向各130度的超广FOV视角覆盖,能够支撑录制2160x2160高分辨率、60FPS的流利视频。这种高帧率与高分辨率的组合,确保了机器在学习过程中能够捕捉到极细微的动作轨迹与环境变化,满足了具身智能在复杂数据采集及高精度仿真评测中的严苛需求。

战略层面,京东披露已于上月启动了人类历史上规模最大的数据采集行动。该计划目标明确:在两年内将真实场景的视频数据规模提升至1000万小时以上。在当前AI竞争由参数规模向高质量数据质量转型的背景下,京东此举通过“硬件定义数据、数据喂养模型”的逻辑,试图为具身智能的广泛商业化落地构筑深厚的技术护城河,这不仅提升了底层算法的泛化能力,也将进一步加速机器人技术在仓储、物流及多场景服务中的应用进程。

via AI新闻资讯 (author: AI Base)
腾讯混元开源视频生成加速方案,11. 8 倍提速,被CVPR2026 收录

视频生成速度慢、成本高,一直是AIGC领域的痛点。腾讯混元团队这次给出了一个新的解法。

腾讯混元正式开源了全新视频生成加速方案DisCa,代码与模型权重均已公开可用。这项工作已被计算机视觉顶会CVPR2026收录,也是学界和业界首次在蒸馏后少步模型上探索可学习特征缓存加速技术的尝试。

DisCa的核心思路,是在已经完成蒸馏、推理步数已经很少的模型上,进一步压缩推理成本。传统的特征缓存方案在多步生成模型上效果不错,但直接用在少步蒸馏模型上会产生过大的缓存误差,导致生成结果崩坏。DisCa的解决方式是引入一个轻量级神经网络预测器,通过对抗学习训练,让预测器学会根据缓存特征更精准地预测后续特征的演化轨迹,从而在保证生成质量的前提下,将加速边界拓展至11.8倍。

另一个值得关注的方向是R-MeanFlow。来自MIT何恺明团队的MeanFlow方案在图像生成上表现亮眼,但腾讯混元团队发现,将其直接用于更复杂的视频生成任务时,"一步生成"的目标过于激进,反而会对模型训练产生负面影响。他们的改进思路简单直接:既然暂时不做一步生成,就把训练中的激进场景剪掉,将步长范围约束在合理区间内。这一结论与MIT和谷歌团队的同期研究相互印证,相关成果已被用于当前最佳开源视频生成模型HunyuanVideo-1.5的实际训练中。

两个方向加在一起,DisCa的意义不只是一篇论文,而是在工程落地层面给出了可复现的路径。对于需要大规模部署视频生成能力的团队来说,这份开源方案值得认真研究。

via AI新闻资讯 (author: AI Base)
调查显示:美国员工每周因使用 AI 浪费近 8 小时

近日,盖洛普公司发布的一项调查报告显示,近一半的美国员工在工作中至少偶尔使用人工智能技术。这一比例较上一季度的 46% 有所增加,达到了公司记录中的最高值。调查涵盖了超过 23700 名员工,结果显示,人工智能的应用正在逐渐深入职场,并对组织结构产生了影响。

在频繁使用人工智能的员工中,每日使用的比例从 12% 上升至 13%,而每周多次使用的比例也从 26% 增至 28%。41% 的受访者表示,雇主已开始在公司内部引入人工智能以提升工作效率,但只有 26% 的员工称雇主就如何整合人工智能工具提供了明确的计划。这种沟通上的差距可能会影响人工智能工具带来的生产力提升。

调查还显示,已积极使用人工智能并清晰传达信息的公司中,27% 的员工反映近期公司员工人数发生了重大变化,而在未采用人工智能的公司中,这一比例为 17%。这些变化包括招聘增加和裁员现象,尤其在中小型企业中更为显著。

值得注意的是,尽管许多员工认为人工智能提升了他们的工作效率,约三分之二的受访者表示技术确实帮助他们更快地完成任务,但另一项报告则指出,使用人工智能也导致了时间的浪费。员工平均每周浪费 7.9 小时在努力让这些工具正常运作上,可能包括数据转移和调整提示词等繁琐任务。这些浪费时间累积起来,相当于每年损失 51 个工作日。

在人工智能广泛应用的今天,企业在引入新技术时,除了关注其潜在的效率提升,还应重视如何有效地整合和沟通,以最大化其应用效果。

划重点:

💼 半数美国员工在工作中使用人工智能,使用率创下新高。

🗣️ 41% 的员工表示雇主正在使用 AI 改善组织实践,但仅 26% 明确传达整合计划。

员工因使用 AI 平均每周浪费近 8 小时,导致工作效率受影响。



via AI新闻资讯 (author: AI Base)
Hightouch 凭借 AI 驱动营销工具实现 1 亿美元年度经常性收入

初创公司 Hightouch 成立于七年前,近期推出了一项人工智能驱动的服务,使得营销人员能够为知名品牌如 Domino's、Chime、PetSmart 和 Spotify 创建个性化内容,完全无需依赖设计团队或广告公司。自从推出这款 AI 产品以来,Hightouch 的年度经常性收入(ARR)在短短 20 个月内增加了 7000 万美元,总额达到 1 亿美元。

Hightouch 的联合首席执行官 Kashish Gupta 表示,在生成式 AI(GenAI)出现之前,普通人很难创建出具有吸引力的消费者资产。然而,该公司的方法超越了传统的 AI 模型。许多品牌在初期尝试使用通用基础模型来生成广告内容,却发现结果往往无法满足 “品牌化” 的标准。

Hightouch 指出,基础模型并不理解特定品牌的特征,包括颜色、字体和语调。因此,它们生成的图像往往无法准确反映品牌形象。为了确保品牌一致性,Hightouch 与客户现有的创意工具直接连接,例如流行的设计平台 Figma、照片库和内容管理系统(CMS)。通过从这些源头提取数据,Hightouch 的平台 “学习” 公司的特定品牌身份。

Hightouch 的 AI 代理能够利用这些照片、设计和客户洞察,帮助营销人员自动构建个性化的广告活动,省去了等待设计师或开发人员的时间。其目标是创造出看起来由专业设计师制作的图像和视频,避免常见的 “假” 或通用的外观。

例如,Domino's 永远不会生成虚构的披萨图像,而是会使用现有的披萨图片,并将其放入生成的广告背景中。如今,Hightouch 已拥有约 380 名员工,并在 2025 年 2 月获得 8000 万美元的 C 轮融资,估值达到 12 亿美元。

划重点:

🌟 Hightouch 推出 AI 服务,营销人员可轻松创建品牌内容。

📈 公司在 20 个月内新增 7000 万美元 ARR,总额达 1 亿美元。

🤖 Hightouch 确保品牌一致性,利用现有工具学习品牌身份。


via AI新闻资讯 (author: AI Base)
Opus 4.6 elevated rate of errors

Apr 16, 06:50 UTC
Identified - The issue has been identified and a fix is being implemented.

via Claude Status - Incident History
OpenAI 发布更新版 Agents SDK 助力企业构建更安全的智能代理

近日,OpenAI 对其 Agents SDK 进行了重磅更新,旨在帮助企业更安全、更高效地构建智能代理。这一更新背景下,智能代理技术的应用越来越受到企业的青睐,各大公司纷纷寻求工具以创建自动化助手。

更新后的 SDK 引入了多项新功能,其中最引人注目的是沙箱功能。这一功能允许智能代理在一个受控的计算环境中运行,这一点尤为重要,因为智能代理在实际操作中可能会出现不可预测的行为,因此完全无人监督的运行模式存在风险。沙箱集成可以让代理在特定工作空间中隔离运行,仅在必要时访问文件和代码,从而有效保护系统的整体安全性。

此外,新版 SDK 还为开发者提供了一个内置框架,支持在工作区中使用文件和已批准的工具。这意味着企业能够更加灵活地利用 OpenAI 的先进模型来部署和测试智能代理。OpenAI 的产品团队成员 Karan Sharma 表示,此次更新的核心目标是确保现有的 Agents SDK 与沙箱提供商之间的兼容性,希望这项技术结合新功能,能够让用户充分利用现有的基础设施来构建长期任务的智能代理。

据 OpenAI 透露,新的 Agents SDK 功能将通过 API 向所有客户开放,并采用标准定价。目前,新的框架和沙箱功能将首先推出 Python 版本,TypeScript 支持将在后续版本中推出,未来还计划同时引入更多 Agent 功能,如代码模式和子代理。

划重点:

🛡️ OpenAI 更新 Agents SDK,引入沙箱功能,提高智能代理的安全性。

🔧 新版 SDK 提供内置框架,支持使用文件和已批准的工具,提升开发灵活性。

📈 API 将向所有客户开放,Python 和 TypeScript 版本将陆续推出。


via AI新闻资讯 (author: AI Base)
超 20 万台AI服务器暴露在攻击风险下,MCP被曝存在严重设计缺陷

一份安全报告,让AI开发者圈子里绷紧了一根弦。

网络安全公司OX Security于4月15日发布调查报告,披露Anthropic的MCP(模型上下文协议)存在架构层面的设计缺陷,可导致远程代码执行,影响超过20万台AI服务器。

MCP是Anthropic于2024年11月推出的开源标准,旨在让AI大模型无缝连接并操作各种外部数据和工具,目前已被大量开发者用于构建AI应用。

问题的根源藏在MCP SDK的STDIO接口中。这个接口本来的设计用途是启动本地服务器进程,但底层执行逻辑存在严重隐患——它会运行任何传入的操作系统命令,即便服务器启动返回失败错误,命令依然会被执行,全程没有校验,没有警告。OX Security明确指出,这不是代码层面的低级失误,而是架构设计上的决策问题。

漏洞波及范围极广,覆盖Anthropic官方支持的全部11种编程语言,包括Python、TypeScript、Java、Go、Rust等主流语言。任何基于MCP构建的开发者,都会自动继承这一风险。

OX Security历时数月,在真实环境中验证了四类攻击方式。LangFlow平台有915个公开实例,攻击者无需账户即可获取会话令牌并实现完整接管;Letta AI遭中间人攻击,研究者直接在生产服务器执行任意命令;Flowise的白名单过滤防护被轻松绕过;最严重的是Windsurf IDE漏洞,用户仅需访问一个恶意网站,无需任何点击,攻击者即可在本地执行任意命令,该漏洞已获得CVE编号。

Anthropic于今年1月7日收到漏洞通报后回应称属于"预期行为",9天后仅更新了一份安全文档,提示开发者谨慎使用STDIO适配器,未作任何架构层面的改动。

研究者还向11个主流MCP市场上传了恶意服务器用于测试,结果9个直接通过,无任何安全审查,仅GitHub的托管注册表拦截了提交。

目前LiteLLM、DocsGPT、Flowise等平台已发布补丁,但LangFlow、Agent Zero等仍待修复,协议层的根本问题依然敞开着。对于正在使用或计划使用MCP构建应用的开发者来说,这份报告值得认真对待。

via AI新闻资讯 (author: AI Base)
芒果TV会员破 7560 万,自研大模型上岗 30 多档节目,湖南广电AI转型成绩单来了

在第十三届中国网络视听大会上,湖南广播电视台董事长龚政文晒出了一份颇为亮眼的成绩单。

用户规模方面,芒果TV有效会员数量已突破7560万,这个数字在当前流媒体竞争白热化的背景下,含金量不低。

更值得关注的是AI层面的进展。湖南广电自研的"芒果大模型"已孵化出80余款智能体,并实际应用于30多档节目的生产流程中,带来了30%以上的生产效率提升。这意味着AI不只是停留在PPT里的概念,而是真正跑进了内容制作的日常。

对于传统广电机构来说,这条AI转型路走得并不容易。从自研大模型到落地具体节目,中间隔着技术适配、内容安全、团队磨合等一道道门槛。芒果TV能在30多档节目中实现规模化应用,说明这套体系已经具备了一定的可复制性。

内容行业的AI竞赛,湖南广电这张牌打得不算晚。

via AI新闻资讯 (author: AI Base)
蚂蚁灵波科技开源 LingBot-Map:支持单摄像头实时流式三维重建

4月16日,蚂蚁灵波科技正式宣布开源流式三维重建模型 LingBot-Map。该模型突破性地实现了仅依靠单个普通 RGB 摄像头,即可在视频采集过程中实时估计相机位姿并重建场景三维结构。这一进展为机器人导航、自动驾驶及 AR 硬件等需要即时空间感知的应用场景,提供了高效、稳定且连续的在线建图能力。

技术层面,LingBot-Map 采用流式处理架构,改变了传统方法需预先采集完整序列再统一处理的局限,实现了边接收画面边输出定位与结构的实时交互。在国际主流评测中,该模型表现出色:在极具挑战的 Oxford Spires 数据集上,其轨迹误差仅为此前最优流式方法的三分之一,甚至优于部分离线处理算法。性能指标显示,LingBot-Map 支持约20FPS 的实时推理,并能在超万帧的长视频运行中保持精度几乎不衰减,兼顾了高精度、高速度与长时稳定性。

此次 LingBot-Map 的发布,是蚂蚁灵波继深度估计(Depth)、大语言动作模型(VLA)及世界模型(World)等系列成果后的又一重要动作。通过补齐实时空间理解这一核心环,蚂蚁灵波进一步夯实了其具身智能“基座”的完整性。该模型的开源不仅降低了高精度三维感知的硬件门槛,更将加速具身智能设备在复杂动态环境中的感知与决策进化。

via AI新闻资讯 (author: AI Base)
阿里巴巴 ATH 推出开放世界模型 Happy Oyster,开启实时交互体验申请

阿里巴巴 ATH 团队今日于 X 平台宣布,其全新开放世界模型产品 Happy Oyster 正式开启早期体验申请。作为继 HappyHorse 之后的又一重磅发布,Happy Oyster 主打实时世界的创建与交互能力,标志着阿里巴巴 ATH 的技术布局已从纯粹的视频生成领域,进一步延伸至更具挑战性的交互式世界模型赛道。目前,感兴趣的用户已可通过官网 happyoyster.cn 提交体验申请。

在此次新品发布前夕,权威 AI 模型评测平台 LM Arena 刚公布了最新 Video Edit(视频编辑)方向排行榜。数据显示,阿里巴巴 ATH 事业群旗下的 happyhorse-1.0模型凭借1299分的 Elo 评分位列全球榜首,成功超越 Grok 等国际主流模型,展现了该团队在多模态视觉处理领域的深厚技术积淀。

Happy Oyster 的推出不仅是阿里巴巴在生成式 AI 领域的一次关键发力,更反映了行业正从“静态内容生成”向“动态可交互环境”进化的技术趋势。通过构建能够实时响应用户指令并进行逻辑交互的开放世界,阿里 ATH 旨在为游戏开发、虚拟仿真及创意设计提供更高维度的生产力工具,持续巩固其在全球 AI 第一梯队的竞争优势。

地址:https://www.happyoyster.cn/

via AI新闻资讯 (author: AI Base)
↩️ 🔮 Apple 急送 Siri 开发团队参加 AI 编码集训,赶工秋季重大更新


科技圈🎗在花频道📮:

🔮 苹果计划使用谷歌 1.2 万亿参数 Gemini 模型重构 Siri 据知情人士透露,苹果公司计划使用谷歌开发的 1.2 万亿参数人工智能模型来支持其承诺已久的 Siri 语音助手全面升级。这一谷歌模型的参数规模将远超苹果目前使用的 1500 亿参数模型。 经过广泛评估后,两家公司正在敲定协议,苹果将每年向谷歌支付约 10 亿美元以获得该技术的使用权。新版 Siri 计划于明年春季推出,代号为 Linwood,将在 iOS 26.4 中发布。谷歌的 Gemini 模型将处理 Siri 的摘要和规划…

🔮 Apple 急送 Siri 开发团队参加 AI 编码集训,赶工秋季重大更新

Apple 计划将 Siri 开发团队的数百名核心成员送往为期数周的 AI 编码集训营,要求他们掌握使用 AI 工具进行软件开发的新 workflow,而非传统编程方式。这一动作发生在距离 iOS 27 秋季发布仅剩两个月之际,显示出苹果急于兑现其多年前承诺的"Siri 新纪元"升级。

据 The Information 披露,此次大规模内部再培训而非单纯依赖招聘,反映出苹果在整合现代 AI 能力进入 Siri 现有架构时遭遇的工程文化冲突与技术瓶颈。新版 Siri 将依托 Google Gemini 提供的大语言模型支持,目标是实现更深度的上下文理解、调用个人数据提供智能回应,以及执行跨应用的复杂任务。

Cult of Mac | The Information

🌸 在花频道|茶馆讨论投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]