https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
High Agent Error Rate
Apr 16, 11:01 UTC
Investigating - We are investigating this issue.
via Cursor Status - Incident History
Apr 16, 11:01 UTC
Investigating - We are investigating this issue.
via Cursor Status - Incident History
DeepSeek 旗下高性能算子库 DeepGEMM 于 2026 年 4 月 16 日发布重大更新,正式推出 Mega MoE 融合算子。该算子通过将 dispatch、SwiGLU 等多个计算步骤与 NVLink 通信重叠,实现了计算与通信的高效融合。此外,本次更新还新增了 FP8xFP4 GEMM 算子、FP4 Indexer 以及 PDL(程序化依赖启动)支持,并显著提升了 JIT 编译速度。
DeepGEMM 是专为现代大模型设计的 CUDA 内核库,支持 NVIDIA SM90 和 SM100 架构。其核心优势在于轻量化设计与运行时即时编译,无需在安装阶段进行复杂编译。目前,该库已在 H800 等显卡上展现出极高的算力利用率,其 Mega MoE 算子通过对称内存技术进一步优化了多专家模型在推理和训练中的性能表现。
deepseek-ai | LyricZhao
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
波士顿动力机器狗 “Spot” 新升级:搭载谷歌Gemini模型
波士顿动力公司近日宣布,他们的著名机器人 “Spot” 已经成功集成了谷歌 DeepMind 开发的先进 AI 模型 ——Gemini Robotics-ER1.6。这一技术升级使得 Spot 在工业检测方面表现更加出色,尤其是在识别泄漏和读取仪表数据的能力上得到了显著提升。
这项技术进步源于波士顿动力与谷歌 DeepMind 之间的紧密合作,双方共同关注的是如何提高机器人在工业环境中的自主决策能力。集成了 Gemini 模型之后,Spot 不仅能够在巡逻过程中有效识别潜在的爆炸风险,还能自主寻找危险的碎片或泄漏物。这种能力极大地增强了 Spot 在复杂工业场景中的应用价值。
具体来说,Spot 在工作中可以阅读复杂的仪表和视镜,这对于监测工业设施的安全至关重要。当 Spot 在工作时遇到需要进一步理解的环境,它还能智能地调用视觉 - 语言 - 动作模型等其他 AI 工具,来帮助它更好地完成任务。这样的功能让 Spot 不仅仅是一个 “跟随者”,而是真正的 “协作者”。
波士顿动力还在 YouTube 上发布了一段视频,展示了 Spot 的新能力。视频中,Spot 在一个模拟的工业环境中工作,展现了其自主识别和处理问题的能力。这样的演示让人们对未来的工业自动化充满了期待。
随着 AI 技术的不断进步,像 Spot 这样的机器人将在各行各业中扮演越来越重要的角色。波士顿动力此次与谷歌的合作,标志着机器人技术与人工智能的深度融合,也预示着工业安全检测的未来将更加智能、高效。
via AI新闻资讯 (author: AI Base)
波士顿动力公司近日宣布,他们的著名机器人 “Spot” 已经成功集成了谷歌 DeepMind 开发的先进 AI 模型 ——Gemini Robotics-ER1.6。这一技术升级使得 Spot 在工业检测方面表现更加出色,尤其是在识别泄漏和读取仪表数据的能力上得到了显著提升。
这项技术进步源于波士顿动力与谷歌 DeepMind 之间的紧密合作,双方共同关注的是如何提高机器人在工业环境中的自主决策能力。集成了 Gemini 模型之后,Spot 不仅能够在巡逻过程中有效识别潜在的爆炸风险,还能自主寻找危险的碎片或泄漏物。这种能力极大地增强了 Spot 在复杂工业场景中的应用价值。
具体来说,Spot 在工作中可以阅读复杂的仪表和视镜,这对于监测工业设施的安全至关重要。当 Spot 在工作时遇到需要进一步理解的环境,它还能智能地调用视觉 - 语言 - 动作模型等其他 AI 工具,来帮助它更好地完成任务。这样的功能让 Spot 不仅仅是一个 “跟随者”,而是真正的 “协作者”。
波士顿动力还在 YouTube 上发布了一段视频,展示了 Spot 的新能力。视频中,Spot 在一个模拟的工业环境中工作,展现了其自主识别和处理问题的能力。这样的演示让人们对未来的工业自动化充满了期待。
随着 AI 技术的不断进步,像 Spot 这样的机器人将在各行各业中扮演越来越重要的角色。波士顿动力此次与谷歌的合作,标志着机器人技术与人工智能的深度融合,也预示着工业安全检测的未来将更加智能、高效。
via AI新闻资讯 (author: AI Base)
阿里巴巴ATH事业群旗下AI创新事业部正式推出开放式世界模型产品Happy Oyster(快乐牡蛎),并同步开启早期体验(内测)申请通道。
该产品以“The world is your Oyster. Open it.”为 slogan,专注于实时世界创建与交互能力,标志着阿里在AI内容生成领域从视频生成向交互式三维世界模型的进一步拓展。
Happy Oyster基于原生多模态架构,支持多模态输入与音视频联合生成的流式世界建模。用户可在生成过程中持续输入指令,画面实时响应并持续演绎,交互性显著优于传统一次性生成模式。它特别适用于影视制作、游戏开发等需要动态三维环境的场景,可帮助创作者快速生成互动视频或游戏内容。
产品提供“Directing(导演模式)”和“Wandering(漫游者模式)”两种核心玩法,让用户分别化身实时导演或世界探索者,自由引导或漫游无限延展的三维空间。 重点申请入口与流程:
目前Happy Oyster已正式启动内测申请,用户可通过官方唯一入口进行报名。
● 官网地址:https://www.happyoyster.cn/
● 申请方式:访问官网后,点击“Explore Now”或“Join the waitlist”等相关按钮,进入申请页面提交信息,加入候补名单(waitlist)。
● 产品目前处于早期体验阶段,采用邀请制或排队制,建议使用笔记本电脑访问以获得最佳体验。申请后需等待官方审核与邀请,具体开放时间以阿里ATH官方通知为准。
作为继视频生成模型Happy Horse之后的“Happy宇宙”第二弹产品,Happy Oyster的推出进一步丰富了阿里ATH在AI交互领域的布局。
业内分析认为,这一实时交互世界模型有望加速AI技术在游戏、影视等行业的商业化落地,为内容创作者提供全新生产力工具。
感兴趣的开发者、影视从业者及AI爱好者可立即访问 https://www.happyoyster.cn/ 提交申请,抢先加入候补名单,体验这一开放式世界模型的创新魅力。阿里ATH事业群表示,将根据用户反馈持续优化产品,未来将逐步扩大内测范围并开放更多功能。
via AI新闻资讯 (author: AI Base)
科大讯飞新发布的 AI 智能鼠标 AM50 Pro
近日,科大讯飞在京东上线了一款名为 AM50 Pro 的 AI 智能鼠标,价格定为 498 元。该鼠标不仅外形时尚,提供黑、白、红三种配色选择,还拥有多种连接方式,包括有线、星闪和蓝牙,方便用户根据不同需求进行切换。
AM50 Pro 的设计相当出色,整体重量仅为 66 克,手感轻盈,适合长时间使用。鼠标采用了光微动技术,按键寿命可达 7000 万次,让你在工作和游戏中都能享受高效的操作体验。无论是日常办公,还是高强度的游戏竞技,AM50 Pro 都能轻松应对。
值得一提的是,这款鼠标内置了多款强大的 AI 大模型,如 Qwen Plus、混元、豆包、讯飞星火和 DeepSeek 等,用户可以通过独立的 AI 按键一键唤醒,轻松实现智能化操作。这意味着,你不仅可以用它来移动光标,还能通过鼠标直接调用 AI 功能,极大提升了工作和生活的效率。
在技术参数方面,AM50 Pro 的有线模式回报率高达 4KHz,而在星闪模式下回报率也可以达到 2KHz,DPI 范围则覆盖 100-16000,确保了鼠标在各种场景下的灵敏度和精确度。这些优势使得 AM50 Pro 不仅适合普通用户,也能满足专业用户的高标准需求。
综合来看,科大讯飞的 AM50 Pro 不仅是一款智能鼠标,更是一个集成了多种智能功能的办公助手。随着 AI 技术的不断发展,这款鼠标无疑为我们的工作带来了更多可能性,值得一试。
via AI新闻资讯 (author: AI Base)
近日,科大讯飞在京东上线了一款名为 AM50 Pro 的 AI 智能鼠标,价格定为 498 元。该鼠标不仅外形时尚,提供黑、白、红三种配色选择,还拥有多种连接方式,包括有线、星闪和蓝牙,方便用户根据不同需求进行切换。
AM50 Pro 的设计相当出色,整体重量仅为 66 克,手感轻盈,适合长时间使用。鼠标采用了光微动技术,按键寿命可达 7000 万次,让你在工作和游戏中都能享受高效的操作体验。无论是日常办公,还是高强度的游戏竞技,AM50 Pro 都能轻松应对。
值得一提的是,这款鼠标内置了多款强大的 AI 大模型,如 Qwen Plus、混元、豆包、讯飞星火和 DeepSeek 等,用户可以通过独立的 AI 按键一键唤醒,轻松实现智能化操作。这意味着,你不仅可以用它来移动光标,还能通过鼠标直接调用 AI 功能,极大提升了工作和生活的效率。
在技术参数方面,AM50 Pro 的有线模式回报率高达 4KHz,而在星闪模式下回报率也可以达到 2KHz,DPI 范围则覆盖 100-16000,确保了鼠标在各种场景下的灵敏度和精确度。这些优势使得 AM50 Pro 不仅适合普通用户,也能满足专业用户的高标准需求。
综合来看,科大讯飞的 AM50 Pro 不仅是一款智能鼠标,更是一个集成了多种智能功能的办公助手。随着 AI 技术的不断发展,这款鼠标无疑为我们的工作带来了更多可能性,值得一试。
via AI新闻资讯 (author: AI Base)
微软补丁引发 Claude Desktop 大崩溃,Anthropic 拒绝修复引争议
近日,AI 编程工具 Claude Desktop 与微软 3 月发布的安全更新 KB5079473 之间出现了严重的兼容性问题,导致大量用户反映在安装和运行过程中遭遇了诸多障碍。用户们在社交平台 Reddit 和开发者社区纷纷发声,表示该工具在安装、运行和认证等环节全线告急,最明显的问题是安装失败。
许多用户在从 Claude 官方网站下载后,系统自动跳转至微软应用商店,但商店中却没有 Claude Desktop 的官方版本可供下载。即使绕过安装障碍,Windows 11 家庭版中的 Cowork 协作功能由于缺乏 Hyper-V 虚拟化支持而直接崩溃。许多用户不得不反复重启系统才能使应用恢复运行,而某些用户甚至开启了 Windows 开发者模式并允许旁加载,但仍然难以保证稳定性。
在 Windows 10 平台上,兼容性问题导致任务管理器也会意外崩溃。更严重的是,Claude Code 的 VS Code 扩展在 WSL 环境下表现不佳,当生成超过 600 行代码时,系统由于内存消耗过大而被强制终止。技术分析表明,KB5079473 更新后,Claude Code 在 WSL2 中堆内存消耗达到 4.6GB 时,便触发了系统的 OOM Killer。
面对如此严重的缺陷,Anthropic 的回应引发了广泛的质疑。公司表示由于 Claude for Linux 未在 WSL 环境下进行兼容性测试,因此将多个关键 Bug 标记为 “不计划修复”,并锁定了相关讨论。这一决定令开发者感到失望,他们认为这一做法对依赖 Windows 平台的企业 IT 环境极为不负责任。
截至目前,Anthropic 尚未对此事件发布官方声明,也没有提供任何修复时间表,用户的期待与失望交织。
via AI新闻资讯 (author: AI Base)
近日,AI 编程工具 Claude Desktop 与微软 3 月发布的安全更新 KB5079473 之间出现了严重的兼容性问题,导致大量用户反映在安装和运行过程中遭遇了诸多障碍。用户们在社交平台 Reddit 和开发者社区纷纷发声,表示该工具在安装、运行和认证等环节全线告急,最明显的问题是安装失败。
许多用户在从 Claude 官方网站下载后,系统自动跳转至微软应用商店,但商店中却没有 Claude Desktop 的官方版本可供下载。即使绕过安装障碍,Windows 11 家庭版中的 Cowork 协作功能由于缺乏 Hyper-V 虚拟化支持而直接崩溃。许多用户不得不反复重启系统才能使应用恢复运行,而某些用户甚至开启了 Windows 开发者模式并允许旁加载,但仍然难以保证稳定性。
在 Windows 10 平台上,兼容性问题导致任务管理器也会意外崩溃。更严重的是,Claude Code 的 VS Code 扩展在 WSL 环境下表现不佳,当生成超过 600 行代码时,系统由于内存消耗过大而被强制终止。技术分析表明,KB5079473 更新后,Claude Code 在 WSL2 中堆内存消耗达到 4.6GB 时,便触发了系统的 OOM Killer。
面对如此严重的缺陷,Anthropic 的回应引发了广泛的质疑。公司表示由于 Claude for Linux 未在 WSL 环境下进行兼容性测试,因此将多个关键 Bug 标记为 “不计划修复”,并锁定了相关讨论。这一决定令开发者感到失望,他们认为这一做法对依赖 Windows 平台的企业 IT 环境极为不负责任。
截至目前,Anthropic 尚未对此事件发布官方声明,也没有提供任何修复时间表,用户的期待与失望交织。
划重点:
🔧 Claude Desktop 与微软安全更新 KB5079473 存在严重兼容性问题,导致用户在安装和使用中遭遇多重障碍。
💻 Anthropic 以未进行兼容性测试为由,拒绝修复多个关键 Bug,令开发者感到失望。
📅 目前,Anthropic 尚未发布官方声明,也未提供修复时间表。
via AI新闻资讯 (author: AI Base)
苹果公司差点将 Grok 踢出应用商店,因其未能控制性别化深度伪造内容
根据 NBC 新闻的报道,苹果公司曾在 1 月暗示可能会将 Elon Musk 的 AI 应用 Grok 从应用商店中移除,原因是该应用未能有效遏制在社交平台 X 上泛滥的非自愿性别化深度伪造内容。这一举动在公众舆论高涨时显得相对低调,苹果的强硬态度是在幕后进行的。随着这一危机的不断升级,外界对苹果公司的批评声也随之上升。
苹果向美国参议员们表示,他们在收到投诉和看到相关新闻报道后,联系了 X 和 Grok 的开发团队,并要求他们制定改善内容审核的计划。此时,xAI 开发的 Grok 不仅可以在 X 平台上使用,还有独立应用可供下载,其内容审查机制不完善,用户可以轻松生成和分享性别化深度伪造图像,尤其是针对女性以及一些未成年人的照片。
根据《边缘》报道,这些行为明显违反了苹果在应用商店中通常严格执行的指导方针。苹果公司从类似 X 和 Grok 这样的应用中获利,但他们对此事件未做公开评论,Google 在其 Google Play 应用商店中也同样未对此事发表任何看法。
苹果方面表示,他们对 X 和 Grok 应用提出的修改建议进行了审查。虽然苹果认为 X 已 “基本解决了其违规问题”,但 Grok 仍然 “未符合规定”。
via AI新闻资讯 (author: AI Base)
根据 NBC 新闻的报道,苹果公司曾在 1 月暗示可能会将 Elon Musk 的 AI 应用 Grok 从应用商店中移除,原因是该应用未能有效遏制在社交平台 X 上泛滥的非自愿性别化深度伪造内容。这一举动在公众舆论高涨时显得相对低调,苹果的强硬态度是在幕后进行的。随着这一危机的不断升级,外界对苹果公司的批评声也随之上升。
苹果向美国参议员们表示,他们在收到投诉和看到相关新闻报道后,联系了 X 和 Grok 的开发团队,并要求他们制定改善内容审核的计划。此时,xAI 开发的 Grok 不仅可以在 X 平台上使用,还有独立应用可供下载,其内容审查机制不完善,用户可以轻松生成和分享性别化深度伪造图像,尤其是针对女性以及一些未成年人的照片。
根据《边缘》报道,这些行为明显违反了苹果在应用商店中通常严格执行的指导方针。苹果公司从类似 X 和 Grok 这样的应用中获利,但他们对此事件未做公开评论,Google 在其 Google Play 应用商店中也同样未对此事发表任何看法。
苹果方面表示,他们对 X 和 Grok 应用提出的修改建议进行了审查。虽然苹果认为 X 已 “基本解决了其违规问题”,但 Grok 仍然 “未符合规定”。
划重点:
- 📉 苹果公司曾威胁将 Grok 从应用商店移除,因未能控制性别化深度伪造内容。
- 🚨 Grok 允许用户轻松生成和分享性别化深度伪造图像,尤其是针对女性和未成年人。
- 📱 苹果表示,X 已改善违规情况,但 Grok 仍不符合应用商店规定。
via AI新闻资讯 (author: AI Base)
NVIDIA 推出全球首个开源量子 AI 模型,量子纠错技术提升三倍
NVIDIA 宣布推出全球首个开源量子 AI 模型,命名为 “NVIDIA Ising”。这一创新旨在解决量子处理器校准和量子纠错这两个关键难题,推动量子计算技术的实际应用。
“NVIDIA Ising” 模型系列主要包括两个重要部分:Ising Calibration 和 Ising Decoding。Ising Calibration 是一个拥有 350 亿参数的视觉语言模型,能够自动执行连续校准,使得处理测量数据所需的时间大幅缩短,从数天缩减至仅数小时。而 Ising Decoding 则提供了两种 3D 卷积神经网络模型,分别针对速度和准确性进行了优化。这一模型在量子纠错的实时解码过程中,实现了比行业基准 pyMatching 高出 2.5 倍的速度和 3 倍的准确率,同时所需的训练数据也仅为后者的十分之一。
值得一提的是,“NVIDIA Ising” 已被全球多个科研机构与企业采用,包括 IonQ、哈佛大学和费米国家加速器实验室等。它不仅有助于量子处理器的校准,也为构建混合量子 - 经典系统提供了重要支持。
“NVIDIA Ising” 模型的命名来源于统计力学中的 “Ising 模型”,该模型帮助人们更好地理解铁磁性与相变。通过将量子计算和人工智能相结合,NVIDIA 正在为复杂物理系统的研究与应用开辟新的可能性。
此次发布的量子 AI 模型不仅丰富了 NVIDIA 的开放模型体系,还与其他领域的模型如 NVIDIA Nemotron(智能体)、NVIDIA Cosmos(物理 AI)、NVIDIA Alpamayo(辅助驾驶)、NVIDIA Isaac GR00T(机器人)和 NVIDIA BioNeMo(生物医学研究)相辅相成,共同推动科技的进步。
via AI新闻资讯 (author: AI Base)
NVIDIA 宣布推出全球首个开源量子 AI 模型,命名为 “NVIDIA Ising”。这一创新旨在解决量子处理器校准和量子纠错这两个关键难题,推动量子计算技术的实际应用。
“NVIDIA Ising” 模型系列主要包括两个重要部分:Ising Calibration 和 Ising Decoding。Ising Calibration 是一个拥有 350 亿参数的视觉语言模型,能够自动执行连续校准,使得处理测量数据所需的时间大幅缩短,从数天缩减至仅数小时。而 Ising Decoding 则提供了两种 3D 卷积神经网络模型,分别针对速度和准确性进行了优化。这一模型在量子纠错的实时解码过程中,实现了比行业基准 pyMatching 高出 2.5 倍的速度和 3 倍的准确率,同时所需的训练数据也仅为后者的十分之一。
值得一提的是,“NVIDIA Ising” 已被全球多个科研机构与企业采用,包括 IonQ、哈佛大学和费米国家加速器实验室等。它不仅有助于量子处理器的校准,也为构建混合量子 - 经典系统提供了重要支持。
“NVIDIA Ising” 模型的命名来源于统计力学中的 “Ising 模型”,该模型帮助人们更好地理解铁磁性与相变。通过将量子计算和人工智能相结合,NVIDIA 正在为复杂物理系统的研究与应用开辟新的可能性。
此次发布的量子 AI 模型不仅丰富了 NVIDIA 的开放模型体系,还与其他领域的模型如 NVIDIA Nemotron(智能体)、NVIDIA Cosmos(物理 AI)、NVIDIA Alpamayo(辅助驾驶)、NVIDIA Isaac GR00T(机器人)和 NVIDIA BioNeMo(生物医学研究)相辅相成,共同推动科技的进步。
划重点:
🌟 NVIDIA 推出全球首个开源量子 AI 模型 “NVIDIA Ising”,旨在解决量子处理器校准和纠错难题。
⚡️ Ising Calibration 可将处理测量数据的时间从数天缩短至数小时,Ising Decoding 实现了 2.5 倍速度和 3 倍准确率的提升。
🌍 多家科研机构和企业已开始应用 “NVIDIA Ising” 模型,助力构建混合量子 - 经典系统。
via AI新闻资讯 (author: AI Base)
波士顿动力的机器狗集成了 Google 的 Gemini 模型
2026-04-16 15:34 by 驶入深海
波士顿动力将 Google DeepMind 的高级具身推理模型 Gemini Robotics-ER 1.6 集成到其机器狗 Spot 中,使 Spot 在工业检测如发现泄漏和读取仪表数据上拥有更强的自主推理能力,机器狗还能认识到何时调用其他 AI 工具。波士顿动力与 Google DeepMind 合作的重点集中在工业检测相关领域,即机器狗在工业设施内巡逻过程中是否能识别潜在爆炸风险。在集成 Gemini Robotics 之后,Spot 能自主寻找危险碎片或泄漏物,读取复杂仪表和视镜,在需要帮助理解周围环境时调用视觉-语言-动作模型等工具。波士顿动力在 YouTube 上发布了一则视频演示了 Spot 的新能力。
https://spectrum.ieee.org/boston-dynamics-spot-google-deepmind
https://www.youtube.com/watch?v=LP4-c5AK30g
#人工智能
via Solidot - Telegram Channel
2026-04-16 15:34 by 驶入深海
波士顿动力将 Google DeepMind 的高级具身推理模型 Gemini Robotics-ER 1.6 集成到其机器狗 Spot 中,使 Spot 在工业检测如发现泄漏和读取仪表数据上拥有更强的自主推理能力,机器狗还能认识到何时调用其他 AI 工具。波士顿动力与 Google DeepMind 合作的重点集中在工业检测相关领域,即机器狗在工业设施内巡逻过程中是否能识别潜在爆炸风险。在集成 Gemini Robotics 之后,Spot 能自主寻找危险碎片或泄漏物,读取复杂仪表和视镜,在需要帮助理解周围环境时调用视觉-语言-动作模型等工具。波士顿动力在 YouTube 上发布了一则视频演示了 Spot 的新能力。
https://spectrum.ieee.org/boston-dynamics-spot-google-deepmind
https://www.youtube.com/watch?v=LP4-c5AK30g
#人工智能
via Solidot - Telegram Channel
现在的AI看图,其实有个隐藏的短板。
问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。
谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。
研究团队在调查中发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于,蒸馏过程移除了遮盖机制,迫使模型学习整张图的所有细节,形成了"全区域监督"。受此启发,TIPSv2围绕这一发现做出了三项关键改进。
第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。
第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。
第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。
最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。
目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。
论文地址:https://www.alphaxiv.org/abs/2604.12012
via AI新闻资讯 (author: AI Base)
4月16日,京东在具身智能生态发布会上正式推出JoyEgoCam超高清采集终端。作为专门针对AI具身智能训练开发的硬件产品,JoyEgoCam不仅标志着超高清采集技术的落地,更成为了全球首个覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,旨在打通从物理世界数据获取到模型仿真评测的全闭环路径。
技术参数方面,JoyEgoCam表现出极强的工业级性能。该设备配备双目摄像头,实现了垂直与水平方向各130度的超广FOV视角覆盖,能够支撑录制2160x2160高分辨率、60FPS的流利视频。这种高帧率与高分辨率的组合,确保了机器在学习过程中能够捕捉到极细微的动作轨迹与环境变化,满足了具身智能在复杂数据采集及高精度仿真评测中的严苛需求。
战略层面,京东披露已于上月启动了人类历史上规模最大的数据采集行动。该计划目标明确:在两年内将真实场景的视频数据规模提升至1000万小时以上。在当前AI竞争由参数规模向高质量数据质量转型的背景下,京东此举通过“硬件定义数据、数据喂养模型”的逻辑,试图为具身智能的广泛商业化落地构筑深厚的技术护城河,这不仅提升了底层算法的泛化能力,也将进一步加速机器人技术在仓储、物流及多场景服务中的应用进程。
via AI新闻资讯 (author: AI Base)