https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
美团发布原生多模态 LongCat-Next:视觉语音实现底层统一
4 月 3 日,美团技术团队正式发布原生多模态大模型 LongCat-Next。该模型突破了传统“语言基座+插件”的拼凑架构,通过将图像、语音与文本统一转化为同源的离散 Token,让 AI 第一次能够像处理文字一样,原生地“看”与“听”物理世界。
技术核心:DiNA 架构实现“模态内化”
为了打破模态间的隔阂,美团构建了 DiNA(离散原生自回归)架构,实现了多模态建模的深度统一:
● 全模态统一: 无论是文字、图像还是音频,模型都采用同一套参数、注意力机制和损失函数。
● 理解与生成对称: 在统一的数学形式下,预测文字 Token 即为“理解”,预测图像 Token 即为“生成”,两者在训练中表现出显著的协同潜力。
● 极致压缩: 采用 dNaViT 视觉分词器,支持任意分辨率输入,通过 8 层残差向量量化实现高达 28 倍的像素空间压缩,完整保留 OCR、财报解析等任务中的关键细节。
实证性能:离散建模没有“天花板”
LongCat-Next在多个维度上展现了超越专用模型的性能,有力回击了“离散化必然损失信息”的传统观点:
● 细粒度感知: 在 OmniDocBench 密集文本场景测试中,性能不仅超越 Qwen3-Omni,更优于专用视觉模型 Qwen3-VL。
● 视觉推理: 在 MathVista 测试中达到 83.1 的领先水平,展现出强大的工业级逻辑能力。
● 跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的并行文本语音生成及可定制的语音克隆。
行业观察:通往物理世界 AI 的基石
长期以来,大模型一直是以语言为中心的系统。而 LongCat-Next 的意义在于,它证明了物理信息可以被离散化并像语言一样被建模。当 AI 拥有了统一的“母语”,它在调用工具、编写代码以及理解复杂图表时会变得更加聪明和直观。
目前,美团已将LongCat-Next 模型及dNaViT 分词器全部开源。这一小尺寸、高潜力的原生离散架构,将为开发者构建能感知并作用于真实世界的 AI 提供重要工具。
via AI新闻资讯 (author: AI Base)
4 月 3 日,美团技术团队正式发布原生多模态大模型 LongCat-Next。该模型突破了传统“语言基座+插件”的拼凑架构,通过将图像、语音与文本统一转化为同源的离散 Token,让 AI 第一次能够像处理文字一样,原生地“看”与“听”物理世界。
技术核心:DiNA 架构实现“模态内化”
为了打破模态间的隔阂,美团构建了 DiNA(离散原生自回归)架构,实现了多模态建模的深度统一:
● 全模态统一: 无论是文字、图像还是音频,模型都采用同一套参数、注意力机制和损失函数。
● 理解与生成对称: 在统一的数学形式下,预测文字 Token 即为“理解”,预测图像 Token 即为“生成”,两者在训练中表现出显著的协同潜力。
● 极致压缩: 采用 dNaViT 视觉分词器,支持任意分辨率输入,通过 8 层残差向量量化实现高达 28 倍的像素空间压缩,完整保留 OCR、财报解析等任务中的关键细节。
实证性能:离散建模没有“天花板”
LongCat-Next在多个维度上展现了超越专用模型的性能,有力回击了“离散化必然损失信息”的传统观点:
● 细粒度感知: 在 OmniDocBench 密集文本场景测试中,性能不仅超越 Qwen3-Omni,更优于专用视觉模型 Qwen3-VL。
● 视觉推理: 在 MathVista 测试中达到 83.1 的领先水平,展现出强大的工业级逻辑能力。
● 跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的并行文本语音生成及可定制的语音克隆。
行业观察:通往物理世界 AI 的基石
长期以来,大模型一直是以语言为中心的系统。而 LongCat-Next 的意义在于,它证明了物理信息可以被离散化并像语言一样被建模。当 AI 拥有了统一的“母语”,它在调用工具、编写代码以及理解复杂图表时会变得更加聪明和直观。
目前,美团已将LongCat-Next 模型及dNaViT 分词器全部开源。这一小尺寸、高潜力的原生离散架构,将为开发者构建能感知并作用于真实世界的 AI 提供重要工具。
via AI新闻资讯 (author: AI Base)
亚马逊、英伟达集体入局!印度 AI 新星 Sarvam 开启 3.5 亿美元巨额融资
4月3日消息,印度人工智能初创公司Sarvam AI已正式开启新一轮融资,计划筹集 3亿至3.5亿美元。据悉,本轮融资后其估值将达到 15亿至15.5亿美元,最快有望在未来一周内尘埃落定。
豪华天团:全球科技巨头竞相押注
本轮融资的参投名单堪称“全明星”阵容,显示出全球资本对印度 AI 潜力的高度认可:
领投方: 预计由知名风投机构 贝塞默风险投资(Bessemer Venture Partners)担纲。
重量级巨头: 科技巨头亚马逊与 AI 芯片霸主英伟达均有意参与。
中东资本: 沙特阿美旗下的风险投资机构 Prosperity7Ventures 也在潜在大股东名单之列。
核心战力:深耕本土语料,打造“语音核心”AI
成立于2023年的Sarvam AI,凭借精准的差异化竞争在巨头林立的 AI 领域杀出重围:
本土化建模: 今年2月,该公司已发布两款参数分别为 300亿 和 1050亿 的大语言模型,且完全基于印度本土语料训练。
多语言覆盖: 重点开发支持 22种印度语言、以语音交互为核心的 AI 系统,直击印度碎片化语言市场的痛点。
Agentic 进化: 正在研发具备自主智能体(Agentic)能力的 AI 系统,旨在深度赋能企业自动化场景。
行业观察:南亚“AI 独角兽”的崛起
Sarvam AI的快速崛起,映射出 AI 浪潮下的新格局:在通用大模型之外,深植于特定语言文化和垂直应用场景的“本土冠军”正成为资本的新宠。对于英伟达和亚马逊而言,入股 Sarvam 不仅是一次财务投资,更是抢占南亚 AI 生态基座的关键布局。
结语:印度 AI 步入“大航海时代”
随着数亿美元资金的注入,Sarvam AI或将改写南亚乃至全球多语言 AI 的竞争版图。在这场算力与本土数据的融合赛中,印度力量正加速从“追赶者”变为“局中人”
via AI新闻资讯 (author: AI Base)
4月3日消息,印度人工智能初创公司Sarvam AI已正式开启新一轮融资,计划筹集 3亿至3.5亿美元。据悉,本轮融资后其估值将达到 15亿至15.5亿美元,最快有望在未来一周内尘埃落定。
豪华天团:全球科技巨头竞相押注
本轮融资的参投名单堪称“全明星”阵容,显示出全球资本对印度 AI 潜力的高度认可:
领投方: 预计由知名风投机构 贝塞默风险投资(Bessemer Venture Partners)担纲。
重量级巨头: 科技巨头亚马逊与 AI 芯片霸主英伟达均有意参与。
中东资本: 沙特阿美旗下的风险投资机构 Prosperity7Ventures 也在潜在大股东名单之列。
核心战力:深耕本土语料,打造“语音核心”AI
成立于2023年的Sarvam AI,凭借精准的差异化竞争在巨头林立的 AI 领域杀出重围:
本土化建模: 今年2月,该公司已发布两款参数分别为 300亿 和 1050亿 的大语言模型,且完全基于印度本土语料训练。
多语言覆盖: 重点开发支持 22种印度语言、以语音交互为核心的 AI 系统,直击印度碎片化语言市场的痛点。
Agentic 进化: 正在研发具备自主智能体(Agentic)能力的 AI 系统,旨在深度赋能企业自动化场景。
行业观察:南亚“AI 独角兽”的崛起
Sarvam AI的快速崛起,映射出 AI 浪潮下的新格局:在通用大模型之外,深植于特定语言文化和垂直应用场景的“本土冠军”正成为资本的新宠。对于英伟达和亚马逊而言,入股 Sarvam 不仅是一次财务投资,更是抢占南亚 AI 生态基座的关键布局。
结语:印度 AI 步入“大航海时代”
随着数亿美元资金的注入,Sarvam AI或将改写南亚乃至全球多语言 AI 的竞争版图。在这场算力与本土数据的融合赛中,印度力量正加速从“追赶者”变为“局中人”
via AI新闻资讯 (author: AI Base)