https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
物理AI时代的“视觉基建”:奥比中光如何重塑机器人感知?

随着人工智能从虚拟数字世界向真实物理空间延伸,“物理AI”(Physical AI)已成为全球科技产业竞逐的新高地。在这一进程中,如何让机器人“看懂”并“感知”物理世界,成为了大模型落地的关键瓶颈。 国内3D 视觉龙头奥比中光正通过其全栈式技术矩阵,精准卡位这一刚需,致力于成为物理AI时代的“视觉基础设施提供商”。

1. 战略定位:从“硬件供应商”到“产业中台”

与传统零部件供应商不同,奥比中光将自身定位为物理AI与机器人视觉产业中台。其核心使命是为物理AI设备赋予“感知即服务”的底层能力,打破了以往“孤立硬件”的局限。

● 感知基座: 为具身智能、服务机器人与工业机器人提供“眼睛”,帮助智能体在复杂环境下实现避障、导航与精细操作。
● 连接物理与数字: 构建起覆盖“芯片+算法+光机”的三位一体全栈技术矩阵,不仅解决了感知硬件的自主可控问题,更通过全栈式方案降低了开发者使用高精度3D 视觉的门槛。

2. 深度协同英伟达:打通“现实与仿真的鸿沟”

奥比中光通过与英伟达(NVIDIA)的深度生态协同,为物理AI的训练提供了不可或缺的“数据底座”:

● 仿真入驻: Gemini 系列双目结构光相机已入驻 NVIDIA Isaac Sim 仿真平台,提供物理级准确的传感器模型,极大缩短了“仿真测试”到“物理部署”的迭代周期。
● 硬件适配: 其3D 视觉产品全面适配 NVIDIA Jetson Thor 系统级模块(具身智能核心算力),实现了从感知输入到计算决策的完整链路打通。
● 感知集成:NVIDIA Isaac Perceptor 集成,为机器人提供高性能的自主导航与环境感知支撑。

3. 数据底座:物理世界的“数字孪生入口”

物理AI的进化离不开海量真实三维数据的支撑。奥比中光凭借高精度3D 扫描技术,为世界模型构建提供了核心数据燃料:

● 三维锚点: 通过高精度3D 扫描,将现实世界的物理约束、几何结构进行数字化建模,为世界模型训练提供“锚点”。
● 规模化交付: 依托顺德(智能制造基地)+越南(海外 OEM/供应链)双基地布局,奥比中光已具备千万级3D 视觉传感器与百万级机器人终端的量产能力,确保了物理 AI 全球落地的数据与硬件底座供应。

4. 行业应用:物理AI的“行业标配”

目前,奥比中光的3D 视觉方案已广泛渗透至多个核心场景,成为行业的“硬核选择”:

总结

在物理AI时代,奥比中光不仅是在生产视觉传感器,而是在构建一套支撑具身智能发展的基础设施。通过打通“现实采集—仿真训练—物理执行”的闭环,奥比中光正在将“视觉感知”这一关键拼图,稳稳嵌入全球物理 AI 的产业版图中。

via AI新闻资讯 (author: AI Base)
字节跳动联合港科大发布MMProLong:长文档LMM训练问答对效率远超OCR转录

5月24日,字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型(LMM)长文档训练的最新研究成果。研究人员基于阿里巴巴开源的Qwen2.5-VL构建了名为 MMProLong 的新模型,并在长文档处理效率上取得突破性进展。该研究不仅打破了多模态模型长文本训练的传统路径,更揭示了数据组织形式对模型长上下文能力的关键影响。

这项研究的核心发现直击当前LMM训练的痛点:在多模态长文档训练中,针对特定目标进行问答对(QA)训练的效果显著优于传统的字符识别(OCR)转录。实验表明,纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力,反而会导致性能下降;而通过独立模型(如字节跳动Seed2.0)生成的长上下文问答对进行训练,则能引导模型在冗长干扰信息中精准检索目标段落。

基于这一优化策略,MMProLong 在仅 128,000个Token 的有限训练预算下,展现出极强的长文本稳定性,在输入长度达到 256,000乃至512,000个Token 时依然没有出现性能崩溃,并在 MMLongBench 和 MM-NIAH(大海捞针)基准测试中大幅超越 InternVL3-38B 和Gemma3-27B等体量更大的开源模型。此外,MMProLong 的多模态能力还成功迁移至未经专门训练的长视频理解任务中,并在Qwen3-VL-8B模型上同样验证了该策略 water-proof 的有效性。

此项研究为当前大模型行业提供了一条不同于 DeepSeek(通过视觉信息高度压缩与重新排序升级架构)的演进路线,证明了通过优化训练数据结构而非改动底层架构,同样能实现长上下文能力的跨越式提升,为未来更长模态、多步骤智能体的开发开辟了更为经济、高效的技术可行性。

via AI新闻资讯 (author: AI Base)
DeepSeek V4 降价,宁德时代等巨头争相投资 AGI 梦想近在咫尺!

5月23日,该公司宣布其 V4-Pro API 将于6月1日起实施永久降价,此举将使 API 的价格降低到原来的四分之一。这一决定不仅有助于吸引更多开发者,也显示了 DeepSeek 在 AI 领域的强大决心。

与此同时,DeepSeek 正迎来融资热潮。根据多家媒体的报道,宁德时代正在接洽 DeepSeek 进行融资,意图在 AI 数据中心的电力设备市场拓展。除了宁德时代外,京东和网易等大公司也在考虑参与投资。融资的规模可能高达700亿元人民币,估值已经飙升至450亿美元,标志着 DeepSeek 正处于快速发展的轨道上。

DeepSeek 创始人梁文锋在与潜在投资者的会议上表示,公司将优先关注突破性人工智能(AGI)的研究,而不是短期的商业利益。这一声明凸显了 DeepSeek 在科技创新方面的雄心,同时也坚定了其开源路线的承诺。这一理念与 DeepSeek 持续降价的举措相辅相成,表明公司希望让先进的 AI 技术更易于大众获取。

投资方面,宁德时代的参与引发了关注。虽然它以电池制造著称,但近年来已扩展至数据中心储能领域。其投资 DeepSeek,可以看作是锁定了一个潜在的巨大客户。DeepSeek 正在内蒙古建立数据中心,利用当地丰富的电力资源,进一步巩固其在 AI 和电力基础设施的战略地位。

整体来看,DeepSeek 的融资进展与降价措施反映了其在 AI 领域的战略布局和长远目标,尤其是在推动 AGI 技术的前景上,深具潜力。

划重点:

🌟 DeepSeek V4-Pro API 宣布永久降价,价格降至原来的四分之一,以吸引更多开发者。

💰 宁德时代等巨头正在洽谈投资 DeepSeek,融资规模或达700亿元人民币,估值飙升至450亿美元。

🤖 创始人梁文锋强调追求 AGI 技术发展,而非短期商业化,坚定开源路线。

via AI新闻资讯 (author: AI Base)
阿里千问发布新一代大模型Qwen3.7-Max

5月22日,阿里千问官方公众号宣布,全新一代智能模型 Qwen3.7-Max 正式接入千问 App、PC 端和网页端。用户只需将千问 App 更新至6.9.7及以上版本,便可通过应用内的 “Qwen3.7-Max” 按钮或 PC 网页的模型选择栏进行切换,立即体验这一最新的智能助手。

Qwen3.7-Max 不仅是一款普通的 AI 模型,更是一个全能的智能体基座。其设计旨在处理多种复杂任务,无论是编写和调试代码,还是实现办公流程自动化,甚至在长达数百小时的任务中进行自主执行,Qwen3.7-Max 都能胜任。根据官方介绍,该模型在多个领域展现出卓越的能力。

首先,在编程领域,Qwen3.7-Max 可以处理从前端原型开发到复杂多文件工程的各种任务,极大地提高了开发效率。其次,在办公与生产力方面,通过多智能体协作与工作流自动化,Qwen3.7-Max 使得日常办公变得更加高效,用户的工作体验得到显著提升。此外,该模型在长周期任务中的表现也令人瞩目,曾在一项长达35小时、超过1000次工具调用的实验中展现出稳定的推理和执行能力,这表明其在复杂任务中也能持续发挥作用。

值得一提的是,Qwen3.7-Max 不仅在阿里云百炼平台上提供服务,还具备优越的跨框架泛化能力,能够在 Claude Code、OpenClaw、Qwen Code 等多个框架中稳定运行。这为开发者和企业提供了更大的灵活性与选择。

随着技术的不断进步,Qwen3.7-Max 的发布无疑为智能办公和生产力的提升带来了新的可能性。用户可以通过阿里云百炼 API 调用这一强大的模型,开启智能工作的新篇章。

划重点:

🌟 Qwen3.7-Max 可在千问 App、PC 和网页端自由切换,用户体验更加便捷。

💻 该模型支持多种复杂任务,包括编程、自动化办公及长周期任务执行。

🚀 具备跨框架能力,能在多个开发环境中稳定运行,为开发者提供更大灵活性。

via AI新闻资讯 (author: AI Base)
微软新推 Fara1.5 系列智能体模型,任务成功率高达 72%!超越 OpenAI!

在人工智能领域,微软研究院 AI Frontiers 实验室近日发布了全新的 Fara1.5系列智能体模型。这一系列专为浏览器场景设计,旨在提升计算机使用的智能化水平。Fara1.5系列涵盖了三个不同参数规模的版本,分别是4B、9B 和27B。

这款智能体模型与 MagneticLite 沙盒浏览器界面配合使用,能够直接读取浏览器的截图,并通过模拟鼠标和键盘操作,自动完成各种网页任务。Fara1.5的工作流程基于 “观察 — 思考 — 行动” 的循环,每一步都结合历史对话和最近的三张浏览器截图,以此生成推理内容和后续动作。

在性能方面,Fara1.5-27B 在 Online-Mind2Web 基准测试中取得了72% 的任务成功率,显著高于 OpenAI 的 Operator(58.3%)和 Gemini2.5Computer Use(57.3%)等竞品。而即使是 Fara1.5-9B 版本,其成功率也达到了63.4%。这种高效的表现让 Fara1.5系列在众多智能体中脱颖而出。

Fara1.5的训练采用了约200万条样本进行微调,其中60% 来自网页轨迹,12.8% 来自合成环境,12.5% 与用户交互有关,8.8% 为事实锚定,4.9% 则来源于视觉问答。这种丰富多样的训练数据大大提升了模型的适应性和智能水平。

为了确保用户的安全与隐私,Fara1.5在以下三种情况下会主动停止操作并询问用户:缺少个人信息、任务描述不清晰以及即将执行未经批准的不可逆操作。此外,所有操作记录都将存储在 MagneticLite 沙盒中,确保智能体与用户设备之间的安全边界。

随着技术的不断进步,微软的 Fara1.5系列无疑为用户带来了更加智能和便捷的浏览体验,展示了人工智能在日常计算机使用中的巨大潜力。

划重点:

🌟 Fara1.5系列模型任务成功率高达72%,超越 OpenAI 等竞品。

🖥️ 该模型通过沙盒浏览器界面完成网页任务,操作方式直观易用。

🔒 强调用户安全,主动询问模糊任务与个人信息保护,确保隐私安全。

via AI新闻资讯 (author: AI Base)
法拉利联手IBM升级车迷App:引入生成式AI助手与赛事总结

法拉利HP车队(Scuderia Ferrari HP)正式宣布与IBM达成深度战略合作,利用IBM的先进人工智能技术全面升级其独立车迷应用程序。此举旨在将赛道上每秒产生的数百万个复杂数据点,转化为易于理解且具高参与度的沉浸式内容,标志着顶级赛车运动在利用生成式AI重塑全球粉丝经济上迈出关键一步。

针对F1近年来爆发式增长且愈发多元化的粉丝群体,法拉利专门设立了“车迷发展主管”一职以推进个性化体验。此次App升级不仅首次补齐了意大利语版本,更深度集成了由AI撰写的比赛总结、预测功能以及供车迷互动的AI助手。

与以往仅提供赛事信息查询的传统体育应用不同,新平台更侧重于全时段的“故事叙述”,通过深度挖掘24人协同换胎等车队幕后故事,建立持久的用户忠诚度。数据表明,自IBM技术介入以来,该应用的用户参与度持续攀升,比赛周末的用户活跃度显著增长了62%。同时,车队正利用AI实时分析车迷的互动信号与情感倾向,以此逆向指导内容的精准输出。

在全球顶级体育赛事中,海量且高频的数据资产正成为AI最佳的练兵场。当前,包括AWS、Oracle、Anthropic以及IBM在内的科技巨头正加速渗透F1围场。法拉利坚持发展独立App生态的战略动作,不仅展现了传统豪门对私域数据控制权的重视,也预示着AI对体育产业的赋能已从小众的数据分析走向大规模的消费端个性化体验定制。

via AI新闻资讯 (author: AI Base)
AI 抓虫新突破!Anthropic 揭示首月战报:超万高危漏洞被揪出!

近日,Anthropic 公司宣布,他们的 Project Glasswing 项目上线仅一个月,便与约 50 家合作伙伴携手,成功发现了超过 1 万个高危(High)和关键(Critical)级别的安全漏洞。这一成果让整个科技界为之一振,显示出 AI 在网络安全领域的强大潜力。

根据合作方的反馈,Anthropic 所开发的 Claude Mythos Preview 模型在漏洞发现的能力上取得了显著提升。有些团队的漏洞发现速度甚至提升了 10 倍,这意味着原本需要花费数天时间的任务,现在可能在几小时内就能完成。如今,漏洞挖掘的瓶颈已从 “发现漏洞” 转移到了 “验证、披露与修补漏洞”,这使得安全团队面临新的挑战。

例如,Cloudflare 公司在其关键系统中发现了 2000 个漏洞,其中有 400 个被评为高危或严重。相较于传统人工测试,Claude 模型的误报率显著降低,展现出更高的准确性。而 Mozilla 在其 Firefox 浏览器的最新版本中修复了 271 个漏洞,这一数量是前一个版本的 10 倍之多,显示出 AI 在提升修复效率方面的价值。

在独立评测中,Mythos Preview 模型同样表现不俗。英国 AI 安全研究所称其为第一个成功攻破两个网络攻防靶场的模型,而 XBOW 平台也认为它在网页利用方面的表现明显优于现有模型,精度极高。

另外,Anthropic 在过去几个月内针对开源软件进行了大规模扫描,发现了 23019 个漏洞,包括中危和低危漏洞。在经过人工复核后,确认其中 1587 个是真正的高危或严重漏洞,真实率高达 90.6%。即使不再发现新漏洞,预计最终仍将有近 3900 个高危或严重漏洞待处理。

不过,修补漏洞的过程并不简单。Anthropic 指出,从发现高危漏洞到发布补丁,平均需要两周时间。部分开源维护者甚至表示,由于无法应对 AI 生成的漏洞报告的数量,他们需要放慢漏洞的披露节奏。这样的情况对安全团队来说,意味着未来的工作压力将会更加沉重。

划重点:

🔍 超过 1 万高危漏洞被 Anthropic 的 AI 模型发现,速度提升显著!

⚙️ 传统漏洞检测的误报率降低,AI 帮助提高了修复效率。

漏洞修复过程面临压力,开源维护者要求放慢披露节奏。

via AI新闻资讯 (author: AI Base)
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景

美国太空探索技术公司(SpaceX)近日正式启动了人工智能(AI)部门的大规模招聘活动。公司创始人埃隆·马斯克宣布将亲自审阅通过初筛的简历,以务实的标准选拔顶尖人才,加速航天技术与AI的深度融合。

本次招聘全面面向工程师、物理学家等专业人才,并且不要求求职者具备AI行业的从业经验。马斯克表示,应聘者只需在邮件中提交三项核心内容来证明自身卓越的能力即可。

考核的重点将完全聚焦于解决复杂技术难题、推动复杂系统落地并创造实际价值的实践成果。这种“重实干、轻履历”的选才理念,与马斯克此前为特斯拉AI芯片团队招募人才时的作风一脉相承.

当前全球科技行业的AI人才竞争持续升温,顶尖技术人才早已成为各大企业布局前沿领域的核心资源。此前,特斯拉前AI总监、OpenAI早期核心成员安德烈·卡帕西加入Anthropic,进一步凸显了该领域人才争夺的激烈态势。

与此同时,SpaceX也在加快资本市场的布局。公司已正式递交了S- 1 上市申请文件,预计于 6 月启动IPO,计划融资 750 亿至 850 亿美元,估值有望达1. 5 万亿至 2 万亿美元。

via AI新闻资讯 (author: AI Base)
DeepSeek宣布V4-Pro模型API永久降价75% 创全球大模型价格新低

近日,DeepSeek官方宣布,旗下DeepSeek-V4-Pro模型API在2026年5月31日结束限时优惠后将不再恢复原价,而是正式转为永久降价,直接调整为原定价的四分之一。此前,该模型于4月26日推出了全系API价格调整,将输入缓存命中价格降至首发价的十分之一,并叠加了限时2.5折的V4-Pro优惠活动。本次策略调整意味着这一极具竞争力的价格将成为常态。

调整后,DeepSeek-V4-Pro的API定价创下全球大模型价格新低。具体而言,每百万tokens的输入(缓存命中)价格仅为0.025元,输入(缓存未命中)价格为3元,输出价格则为6元。这一量级的数据降幅,不仅展示了DeepSeek在模型架构优化与算力效率上的技术底座实力,更通过极致的成本控制颠覆了现有的商业化定价体系。

当前,大模型行业正加速从“技术涌现”走向“商业落地”,企业级客户对算力成本与调用效率的敏感度日益提升。DeepSeek将短期促销转化为永久性的大幅降价,预计将进一步降低开发者与企业构建AI应用的门槛,催生更多高频次、大吞吐量的场景化落地。此举不仅夯实了其自身的市场份额,也将倒逼整个生成式AI行业重新审视商业模式,推动全球大模型API定价向更具普惠性的理性区间迈进。

via AI新闻资讯 (author: AI Base)
Codex现在即使在Mac锁屏状态下也能使用

OpenAI已为其在macOS上的Codex桌面应用推出了 “计算机使用” 功能,而其最新的功能是,即使您不在电脑旁,编程智能体也无需解锁您的Mac即可使用您的应用。OpenAI公司发帖表示,用户现在可以从他们的手机发送Codex任务,并让它操作他们Mac上的应用,“即使屏幕关闭并被锁定。” 帖子附带的图片显示了一台被锁定的Mac,上面显示着一个“Codex正在使用你的Mac”的覆盖层,并附有提示按任意键或点击以解锁。为了使该功能生效,需要安装 “计算机使用” 插件并授予屏幕录制和辅助功能权限。之后,Codex 可以在明确允许的应用程序中点击窗口、键入、导航菜单以及与剪贴板进行交互。

—— Macrumors

via 风向旗参考快讯 - Telegram Channel
Composer 2.5 Fast Service Degradation

May 24, 17:41 UTC
Investigating - We are investigating a service degradation on Composer 2.5 Fast.

via Cursor Status - Incident History
Investigating service degradation of Composer 2.5 Fast

May 24, 16:46 UTC
Investigating - We are investigating a service degradation of Composer 2.5 Fast.

via Cursor Status - Incident History
AI Agent 对比和选型

via 掘金人工智能本月最热 (author: Karl_wei)
Google Docs 推出 Docs Live 功能:支持语音对话生成文档

Google 推出名为 Docs Live 的新功能,用户可以通过语音对话直接生成文档草稿。该工具利用 Gemini AI 将口述的零散想法转化为结构化的文本,并支持根据指令调整大纲或语气。Docs Live 还能调用用户 Google Drive 中的文件或搜索网页信息来充实内容,旨在解决创作初期的“白纸焦虑”。

该功能目前遵循 Google Workspace 的隐私规则,输入数据不会用于模型训练。Docs Live 将首先面向 iOS 和 Android 端的付费 AI 订阅用户开放,随后将逐步覆盖网页端及更多普通用户。

The Wall Street Journal

🌸 在花频道 · 备用频道 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]