https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
微软 GitHub 于 4 月 6 日发布了一个激动人心的消息,为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查机制,旨在帮助开发者提升代码的准确性和效率,最终使 AI 的性能提升近 75%。
在软件开发过程中,早期的决策错误往往会积累成更大的问题,而传统的自我审查方法容易受到模型本身训练偏差的影响。Rubber Duck 的推出,正是为了引入不同的模型作为独立审查者,从而提供多元化的视角,及时发现潜在的错误。这项功能支持用户选择 Claude 系列模型作为主控,接着使用 GPT-5.4 进行代码审查,确保代码的准确性和完整性。
通过 SWE-Bench Pro 基准测试,研究显示 Claude Sonnet 4.6 和 Opus 4.6 的单独运行存在显著性能差距,而 Sonnet 4.6 结合 Rubber Duck 后,成功弥补了 74.7% 的性能差距。在处理复杂任务时,该功能的表现更为突出,得分比基线高出 3.8%。具体案例表明,它能有效识别架构逻辑漏洞、循环覆盖错误以及跨文件的冲突问题。
Rubber Duck 的使用方式灵活多样,支持主动、被动和用户触发的三种审查模式。系统会在制定计划、复杂实现和测试编写后的关键节点自动寻求审查,也可以在开发者陷入问题时被动触发。同时,用户还可以随时主动请求审查,系统会展示反馈内容和修改依据。
目前,Rubber Duck 功能已在实验模式下上线,用户只需安装 GitHub Copilot CLI 并运行 /experimental 命令,即可启用这一新功能,享受 Claude 模型与 GPT-5.4 的协同工作体验。
划重点:
🌟 1. 微软 GitHub 推出 Rubber Duck 功能,引入跨模型的 AI 审查机制,提升编程效率。
🔍 2. 该功能通过结合 Claude Sonnet 4.6 和 GPT-5.4,成功弥补 74.7% 的性能差距。
⚙️ 3. Rubber Duck 支持多种审查模式,用户可主动请求审查,确保代码质量。
via AI新闻资讯 (author: AI Base)
测试显示 AI Overviews 每 10 个答案就有一个是错误的
2026-04-08 14:18 by 奇迹男孩与冰霜巨人
纽约时报的测试显示,Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的,这听起来还不错,但考虑到 Google 服务每天的搜索量,这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试,当时 Google 最好的模型还是 Gemini 2.5,当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后,AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源,当它出错时,其答案经常会与引用来源的信息互相矛盾。
https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html
#Google
via Solidot - Telegram Channel
2026-04-08 14:18 by 奇迹男孩与冰霜巨人
纽约时报的测试显示,Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的,这听起来还不错,但考虑到 Google 服务每天的搜索量,这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试,当时 Google 最好的模型还是 Gemini 2.5,当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后,AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源,当它出错时,其答案经常会与引用来源的信息互相矛盾。
https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html
via Solidot - Telegram Channel
Sonnet 4.6 elevated rate of errors
Apr 8, 06:23 UTC
Investigating - We are currently investigating this issue.
via Claude Status - Incident History
Apr 8, 06:23 UTC
Investigating - We are currently investigating this issue.
via Claude Status - Incident History
中国电商巨头京东全面拦截员工使用外部AI
京东在三月底正式限制外部人工智能,员工打开外部网站会有页面拦截,不限于豆包、千问、Gemini、DeepSeek、ChatGPT、Grok 等等。拦截页面中有公司自研大模型的使用入口,也有外部人工智能申请入口。与此同时,外卖巨头美团大模型调整,不再推荐业务使用阿里云提供的 Qwen 模型,如果业务仍需使用,需要提交使用原因到老板(一般是x3级别)进行审批。值得一提的是,豆包等大模型目前无需审批,而公司推荐业务使用的是自研的 LongCat(龙猫)。
—— 大厂日爆
via 风向旗参考快讯 - Telegram Channel
京东在三月底正式限制外部人工智能,员工打开外部网站会有页面拦截,不限于豆包、千问、Gemini、DeepSeek、ChatGPT、Grok 等等。拦截页面中有公司自研大模型的使用入口,也有外部人工智能申请入口。与此同时,外卖巨头美团大模型调整,不再推荐业务使用阿里云提供的 Qwen 模型,如果业务仍需使用,需要提交使用原因到老板(一般是x3级别)进行审批。值得一提的是,豆包等大模型目前无需审批,而公司推荐业务使用的是自研的 LongCat(龙猫)。
—— 大厂日爆
via 风向旗参考快讯 - Telegram Channel
西班牙初创公司 Xoople 获得 1.3 亿美元融资,打造 AI 卫星星座
西班牙初创公司 Xoople 近期成功融资 1.3 亿美元,使其总投资额达到 2.25 亿美元。该公司的目标是创建一个卫星星座,旨在通过绘制地球地图来服务人工智能应用。这一星座将依托 Xoople 的 EarthAI 平台,该平台基于微软 Azure 构建,专注于从地球表面收集精确的实时数据,以支持智能体 AI 系统的日益增长的需求。
Xoople 成立于 2019 年,经过七年的研发,致力于构建一个持续更新的地球物理变化数据层,以便为机器学习提供支持。该公司计划在本季度将其技术推向市场。目前,Xoople 已能够访问来自欧洲航天局等政府机构的卫星图像,并将这些信息转换为可以用于环境监测和风险预测的数据集。
借助最新的融资,Xoople 希望能够出售其自主研发的地球观测卫星数据。公司在声明中指出,该星座将扩大企业获取物理世界智能的渠道,从而推动人工智能和智能体的革新。尽管卫星的具体发射日期尚未确定,Xoople 的首席执行官 Fabrizio Pirondini 表示:“每个重要的计算时代都会产生新的记录系统,定义这些系统的企业将成为时代的经济中心。”
该公司将其技术视为提供可靠、透明的数据访问渠道,尤其在企业越来越依赖智能体和自主代理的背景下,监督和管理这些系统显得尤为重要。人工智能的效果往往取决于其训练数据的质量,而连接数字系统与物理世界的专有数据集(Xoople 称之为 “地球记录系统”)正逐渐成为关键的竞争优势。
Xoople 表示,这些系统将推动变革,使人工智能能够更安全地与物理世界互动,潜在的应用领域包括政府机构及大型企业在优化供应链、基础设施、农业预测、资源规划、保险风险建模及城市规划等方面的需求。此外,该公司还与美国航天和国防承包商 L3Harris Technologies 达成协议,为其卫星星座开发传感器。
via AI新闻资讯 (author: AI Base)
西班牙初创公司 Xoople 近期成功融资 1.3 亿美元,使其总投资额达到 2.25 亿美元。该公司的目标是创建一个卫星星座,旨在通过绘制地球地图来服务人工智能应用。这一星座将依托 Xoople 的 EarthAI 平台,该平台基于微软 Azure 构建,专注于从地球表面收集精确的实时数据,以支持智能体 AI 系统的日益增长的需求。
Xoople 成立于 2019 年,经过七年的研发,致力于构建一个持续更新的地球物理变化数据层,以便为机器学习提供支持。该公司计划在本季度将其技术推向市场。目前,Xoople 已能够访问来自欧洲航天局等政府机构的卫星图像,并将这些信息转换为可以用于环境监测和风险预测的数据集。
借助最新的融资,Xoople 希望能够出售其自主研发的地球观测卫星数据。公司在声明中指出,该星座将扩大企业获取物理世界智能的渠道,从而推动人工智能和智能体的革新。尽管卫星的具体发射日期尚未确定,Xoople 的首席执行官 Fabrizio Pirondini 表示:“每个重要的计算时代都会产生新的记录系统,定义这些系统的企业将成为时代的经济中心。”
该公司将其技术视为提供可靠、透明的数据访问渠道,尤其在企业越来越依赖智能体和自主代理的背景下,监督和管理这些系统显得尤为重要。人工智能的效果往往取决于其训练数据的质量,而连接数字系统与物理世界的专有数据集(Xoople 称之为 “地球记录系统”)正逐渐成为关键的竞争优势。
Xoople 表示,这些系统将推动变革,使人工智能能够更安全地与物理世界互动,潜在的应用领域包括政府机构及大型企业在优化供应链、基础设施、农业预测、资源规划、保险风险建模及城市规划等方面的需求。此外,该公司还与美国航天和国防承包商 L3Harris Technologies 达成协议,为其卫星星座开发传感器。
划重点:
🌍 Xoople 获得 1.3 亿美元融资,致力于打造 AI 卫星星座。
🛰️ 公司目标是通过 EarthAI 平台收集地球实时数据,服务人工智能。
🤝 与 L3Harris Technologies 合作,推进卫星传感器的开发。
via AI新闻资讯 (author: AI Base)
微软的 Bing 团队近日宣布开源其最新的词嵌入模型 “Harrier”。该模型在多语言 MTEB v2 基准测试中表现优异,支持超过 100 种语言,为用户提供了更为强大的语言处理能力。Harrier 的训练数据包括超过 20 亿个示例以及来自 GPT-5 的合成数据,采用了 32,000 个词元的上下文窗口,使其在多语言任务中具备更高的准确性和灵活性。
在参数配置上,Harrier 拥有一个完整的 27 亿参数版本,此外还推出了两个更小的版本,分别为 0.6 亿参数和 2.7 亿参数,旨在为低性能硬件的用户提供可行的解决方案。这三款模型均已在 Hugging Face 平台上以 MIT 许可证发布,方便开发者进行使用和集成。
嵌入模型在人工智能系统中扮演着至关重要的角色,尤其是在搜索、信息检索和数据组织等任务中。随着 AI 技术的发展,嵌入模型的需求愈加迫切,能够帮助 AI 代理独立处理更复杂的多步骤任务。因此,微软表示,Harrier 的发布将推动 AI 技术在各个领域的应用。
未来,微软计划将 Harrier 技术集成到 Bing 搜索引擎中,以及用于新一代 AI 代理的基础服务。这一战略将进一步提升 Bing 在 AI 领域的竞争力,满足用户对高效信息处理的需求。
划重点:
🌍 Harrier 模型支持超过 100 种语言,具备强大的多语言处理能力。
💡 该模型采用超过 20 亿个示例及 GPT-5 数据训练,确保了高准确性。
🚀 微软计划将 Harrier 集成到 Bing 及新一代 AI 代理服务中,提升搜索引擎性能。
via AI新闻资讯 (author: AI Base)
谷歌搜索 AI 概览准确率仅 90%,易受虚假信息影响
《纽约时报》近日报道,谷歌的 AI 概览(AI Overviews)准确率约为 90%。这一数据的背后是每年超过 5 万亿次的搜索量,意味着每小时可能会生成超过 5700 万条错误答案,平均每分钟接近 100 万条错误信息。
初创公司 Oumi 对谷歌搜索进行评估,采用 SimpleQA 基准分析了 4326 次搜索结果。结果显示,谷歌的 Gemini 2 在去年 10 月的准确率为 85%,而到今年 2 月,Gemini 3 这一数字提升至 91%。然而,Oumi 的评估方法主要依赖于 AI 工具,这可能导致数据偏差。此外,谷歌对同一搜索查询可能生成不同的概览,增加了结果的不确定性。
具体来看,AI 概览与原始信息来源不符的比例已从 Gemini 2 的 37% 上升至 Gemini 3 的 56%。这意味着用户在看到某些概览时,往往会发现与之不符的链接或者准确的概览中却引用了错误的信息。有记者甚至发布虚假博客后,谷歌在次日的概览中引用了相关内容,显示出 AI 概览容易被操纵。
此外,用户斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根(Hulk Hogan)的死讯时,AI 概览明确表示 “没有可信报告显示霍根已去世”,但页面下方却出现了 “霍根之死谜团加深” 的文章标题。这一自相矛盾的现象引发了用户对 AI 生成内容的可靠性质疑。
面对这些问题,谷歌发言人对 Oumi 的测试方法提出了质疑,认为其评估并未能真实反映搜索行为。
via AI新闻资讯 (author: AI Base)
《纽约时报》近日报道,谷歌的 AI 概览(AI Overviews)准确率约为 90%。这一数据的背后是每年超过 5 万亿次的搜索量,意味着每小时可能会生成超过 5700 万条错误答案,平均每分钟接近 100 万条错误信息。
初创公司 Oumi 对谷歌搜索进行评估,采用 SimpleQA 基准分析了 4326 次搜索结果。结果显示,谷歌的 Gemini 2 在去年 10 月的准确率为 85%,而到今年 2 月,Gemini 3 这一数字提升至 91%。然而,Oumi 的评估方法主要依赖于 AI 工具,这可能导致数据偏差。此外,谷歌对同一搜索查询可能生成不同的概览,增加了结果的不确定性。
具体来看,AI 概览与原始信息来源不符的比例已从 Gemini 2 的 37% 上升至 Gemini 3 的 56%。这意味着用户在看到某些概览时,往往会发现与之不符的链接或者准确的概览中却引用了错误的信息。有记者甚至发布虚假博客后,谷歌在次日的概览中引用了相关内容,显示出 AI 概览容易被操纵。
此外,用户斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根(Hulk Hogan)的死讯时,AI 概览明确表示 “没有可信报告显示霍根已去世”,但页面下方却出现了 “霍根之死谜团加深” 的文章标题。这一自相矛盾的现象引发了用户对 AI 生成内容的可靠性质疑。
面对这些问题,谷歌发言人对 Oumi 的测试方法提出了质疑,认为其评估并未能真实反映搜索行为。
划重点:
🔍 AI 概览的准确率约为 90%,每小时可能产生 5700 万条错误答案。
📈 Gemini 3 的准确率提升至 91%,但与原始信息不符的比例已升至 56%。
🤖 AI 概览易受虚假信息影响,用户对其可靠性产生质疑。
via AI新闻资讯 (author: AI Base)
腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器
今日,腾讯正式发布国内首个AI驱动的浏览器产品“龙虾”QBotClaw,标志着浏览器正从单纯的网页访问工具演变为具备全场景感知与复杂任务执行能力的AI助理。
该产品核心亮点在于其极高的开放性,支持用户自由配置国内各大主流大模型的API Key,打破了以往AI浏览器与单一模型深度绑定的局限。首期上线的Mac版本已深度集成QQ浏览器Skill,Windows版本也预计于近期推出,旨在降低大模型使用门槛,实现“人人都能用上龙虾”的行业普惠目标。
在技术架构上,QBotClaw通过内置的X5use高精度识别技术为浏览器赋予了敏锐的视觉感知,结合上下文感知能力,用户仅需通过简单的指令即可让浏览器自主执行跨页面的复杂任务。除了完全兼容OpenClaw技能生态外,QBotClaw还打通了移动端与桌面端的壁垒,用户通过微信扫码绑定Clawbot后,即可实现对电脑端的远程“遥控”操作。
当前,全球大模型领域正处于从“对话式交互”向“智能体执行”进化的关键节点。腾讯此次推出QBotClaw,不仅是通过AI重构浏览器这一核心流量入口,更是试图利用其开放的API配置机制,构建一个兼容并包的AI应用生态。
via AI新闻资讯 (author: AI Base)
今日,腾讯正式发布国内首个AI驱动的浏览器产品“龙虾”QBotClaw,标志着浏览器正从单纯的网页访问工具演变为具备全场景感知与复杂任务执行能力的AI助理。
该产品核心亮点在于其极高的开放性,支持用户自由配置国内各大主流大模型的API Key,打破了以往AI浏览器与单一模型深度绑定的局限。首期上线的Mac版本已深度集成QQ浏览器Skill,Windows版本也预计于近期推出,旨在降低大模型使用门槛,实现“人人都能用上龙虾”的行业普惠目标。
在技术架构上,QBotClaw通过内置的X5use高精度识别技术为浏览器赋予了敏锐的视觉感知,结合上下文感知能力,用户仅需通过简单的指令即可让浏览器自主执行跨页面的复杂任务。除了完全兼容OpenClaw技能生态外,QBotClaw还打通了移动端与桌面端的壁垒,用户通过微信扫码绑定Clawbot后,即可实现对电脑端的远程“遥控”操作。
当前,全球大模型领域正处于从“对话式交互”向“智能体执行”进化的关键节点。腾讯此次推出QBotClaw,不仅是通过AI重构浏览器这一核心流量入口,更是试图利用其开放的API配置机制,构建一个兼容并包的AI应用生态。
via AI新闻资讯 (author: AI Base)
Anthropic推出新模型 暂时仅限科技巨头试用
Anthropic正将一款尚未公开发布的顶级AI模型武装给全球最重要的科技企业,以应对AI驱动的网络安全威胁。周二,Anthropic宣布成立了名为 “Project Glasswing” 的行业联合项目,联合亚马逊、苹果、微软、思科等公司提供工具,将旗下新一代前沿模型Claude Mythos Preview用于关键软件基础设施的漏洞扫描与修复。Anthropic表示,正是由于这一模型能力过于强大,目前暂无向公众开放的计划。在这一背景下,Project Glasswing被定位为先发防御行动,在同等能力向更广泛行为者扩散之前,优先用于防御目的。
—— 华尔街见闻、CNBC、彭博社
via 风向旗参考快讯 - Telegram Channel
Anthropic正将一款尚未公开发布的顶级AI模型武装给全球最重要的科技企业,以应对AI驱动的网络安全威胁。周二,Anthropic宣布成立了名为 “Project Glasswing” 的行业联合项目,联合亚马逊、苹果、微软、思科等公司提供工具,将旗下新一代前沿模型Claude Mythos Preview用于关键软件基础设施的漏洞扫描与修复。Anthropic表示,正是由于这一模型能力过于强大,目前暂无向公众开放的计划。在这一背景下,Project Glasswing被定位为先发防御行动,在同等能力向更广泛行为者扩散之前,优先用于防御目的。
—— 华尔街见闻、CNBC、彭博社
via 风向旗参考快讯 - Telegram Channel