https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
🤖 OpenAI推出ChatGPT应用商店,集成Apple Music和DoorDash等服务
OpenAI于周三晚间正式推出ChatGPT应用商店(App Directory),用户可在此浏览所有可用工具,同时向开发者开放SDK以构建新的交互体验。该商店已集成Apple Music和DoorDash等热门服务,其中Apple Music应用可帮助用户查找音乐、创建播放列表和管理音乐库,DoorDash则能将食谱灵感和用餐计划转化为购物车。此前被称为“连接器”的功能现已统一更名为“应用”。OpenAI CEO Sam Altman表示,此举是公司迈向“万能应用”目标的重要一步。目前,OpenAI尚未透露具体的盈利模式,但表示正在探索数字商品等货币化选项。
(科技圈)
via 茶馆 - Telegram Channel
OpenAI于周三晚间正式推出ChatGPT应用商店(App Directory),用户可在此浏览所有可用工具,同时向开发者开放SDK以构建新的交互体验。该商店已集成Apple Music和DoorDash等热门服务,其中Apple Music应用可帮助用户查找音乐、创建播放列表和管理音乐库,DoorDash则能将食谱灵感和用餐计划转化为购物车。此前被称为“连接器”的功能现已统一更名为“应用”。OpenAI CEO Sam Altman表示,此举是公司迈向“万能应用”目标的重要一步。目前,OpenAI尚未透露具体的盈利模式,但表示正在探索数字商品等货币化选项。
(科技圈)
via 茶馆 - Telegram Channel
火山引擎总裁谭待:大模型市场未来将迎十倍增长
在 FORCE 原动力大会上,火山引擎总裁谭待在接受媒体采访时,对公司旗下豆包大模型的表现做出了积极评价。他指出,尽管在国内市场上,豆包大模型的成绩相对明显,但在全球范围内,如 OpenAI 和 Gemini 等竞争对手的表现同样突出。因此,火山引擎在这一领域还有很多努力的空间,尤其是在全球市场的拓展上,谭待提到公司旗下的 Seedance 和 Seedream 在国际市场上的表现也不错。
谈及未来的发展趋势,谭待表示,2026年大模型市场的竞争将不仅仅局限于当前的存量市场。他强调,未来更重要的是扩展市场规模,推动整个行业的增长。他预测,明年的市场规模可能会实现十倍的增长,因此,企业之间的竞争将不再是零和博弈,而是通过共同努力来扩大整体市场。
谭待的发言为业内人士提供了新的视角,认为未来的发展潜力巨大。火山引擎将继续致力于提升自身技术水平和市场份额,为全球用户提供更加优质的产品和服务。
via AI新闻资讯 (author: AI Base)
在 FORCE 原动力大会上,火山引擎总裁谭待在接受媒体采访时,对公司旗下豆包大模型的表现做出了积极评价。他指出,尽管在国内市场上,豆包大模型的成绩相对明显,但在全球范围内,如 OpenAI 和 Gemini 等竞争对手的表现同样突出。因此,火山引擎在这一领域还有很多努力的空间,尤其是在全球市场的拓展上,谭待提到公司旗下的 Seedance 和 Seedream 在国际市场上的表现也不错。
谈及未来的发展趋势,谭待表示,2026年大模型市场的竞争将不仅仅局限于当前的存量市场。他强调,未来更重要的是扩展市场规模,推动整个行业的增长。他预测,明年的市场规模可能会实现十倍的增长,因此,企业之间的竞争将不再是零和博弈,而是通过共同努力来扩大整体市场。
谭待的发言为业内人士提供了新的视角,认为未来的发展潜力巨大。火山引擎将继续致力于提升自身技术水平和市场份额,为全球用户提供更加优质的产品和服务。
划重点:
🌟 大模型市场将在未来一年可能实现十倍增长,企业之间的竞争将转向市场扩展。
📈 火山引擎在国内市场表现良好,但需努力提升在全球市场的竞争力。
🤖 谭待强调,未来的成功在于共同推动行业发展,而非简单的零和博弈。
via AI新闻资讯 (author: AI Base)
OpenAI 周三晚间正式推出 ChatGPT 应用商店(App Directory),用户可浏览所有可用工具,同时向开发者开放 SDK 以构建新的交互体验。新应用商店集成了 Apple Music 和 DoorDash 等热门服务,其中 Apple Music 应用可帮助用户查找音乐、创建播放列表并管理音乐库,DoorDash 则能将食谱灵感和用餐计划转化为购物车。
此前被称为"连接器"的功能现已统一更名为"应用",包括文件搜索应用、深度研究应用和同步应用等类型。OpenAI CEO Sam Altman 此前表示,公司计划构建强大平台所需的各项功能,应用商店的推出标志着向"万能应用"目标迈出重要一步。不过 OpenAI 尚未透露具体盈利模式,仅表示正在探索数字商品等货币化选项。
The Verge
🍀在花频道 🍵茶馆 📮投稿新鲜事
via 科技圈🎗在花频道📮 - Telegram Channel
亚马逊任命长期 AWS 高管彼得・德桑提斯领导新 AI 组织
在亚马逊公司最新的消息中,首席执行官安迪・贾西宣布,长期担任 AWS 高管的彼得・德桑提斯将负责公司新成立的人工智能(AI)组织。这个新的组织将专注于亚马逊的 AI 模型,如 Nova,以及硅片开发和量子计算,旨在提升 AI 工具的速度和效率。
彼得・德桑提斯在亚马逊工作了27年,其中有8年担任 AWS 的高级副总裁。AWS 是全球约三分之一互联网服务的基础,近年来公司在企业级 AI 领域的承诺愈发明显。贾西表示,随着 Nova2模型在 AWS 最近的 re:Invent 活动上推出,定制硅片的快速发展,以及在模型、芯片与云软件基础设施之间优化的优势,公司希望能够让德桑提斯专注于这些新领域。
亚马逊对 AI 的日益重视,正值公司希望在激烈的 AI 竞争中巩固其市场地位。除了自身的创新,亚马逊也在积极进行投资。上个月,AWS 宣布将在美国政府的 AI 基础设施上投资500亿美元。此外,亚马逊还在与 OpenAI 进行谈判,计划投资100亿美元,并已对 OpenAI 的竞争对手 Anthropic 进行了80亿美元的投资。
亚马逊的这一战略布局,将使其在未来的 AI 领域更具竞争力,同时也将进一步推动云计算和智能技术的结合。
via AI新闻资讯 (author: AI Base)
在亚马逊公司最新的消息中,首席执行官安迪・贾西宣布,长期担任 AWS 高管的彼得・德桑提斯将负责公司新成立的人工智能(AI)组织。这个新的组织将专注于亚马逊的 AI 模型,如 Nova,以及硅片开发和量子计算,旨在提升 AI 工具的速度和效率。
彼得・德桑提斯在亚马逊工作了27年,其中有8年担任 AWS 的高级副总裁。AWS 是全球约三分之一互联网服务的基础,近年来公司在企业级 AI 领域的承诺愈发明显。贾西表示,随着 Nova2模型在 AWS 最近的 re:Invent 活动上推出,定制硅片的快速发展,以及在模型、芯片与云软件基础设施之间优化的优势,公司希望能够让德桑提斯专注于这些新领域。
亚马逊对 AI 的日益重视,正值公司希望在激烈的 AI 竞争中巩固其市场地位。除了自身的创新,亚马逊也在积极进行投资。上个月,AWS 宣布将在美国政府的 AI 基础设施上投资500亿美元。此外,亚马逊还在与 OpenAI 进行谈判,计划投资100亿美元,并已对 OpenAI 的竞争对手 Anthropic 进行了80亿美元的投资。
亚马逊的这一战略布局,将使其在未来的 AI 领域更具竞争力,同时也将进一步推动云计算和智能技术的结合。
划重点:
1️⃣ 亚马逊任命彼得・德桑提斯领导新的 AI 组织,专注于 AI 模型、硅片开发和量子计算。
2️⃣ 德桑提斯在亚马逊拥有27年的丰富经验,其中8年在 AWS 担任高级副总裁。
3️⃣ 亚马逊正加大在 AI 领域的投资,包括计划在 AI 基础设施上投资500亿美元及与 OpenAI 和 Anthropic 的合作。
via AI新闻资讯 (author: AI Base)
英伟达推出 Nemotron 3:混合架构提升 AI 代理处理效率
英伟达近日发布了其全新的 Nemotron 3 系列,这一系列产品结合了 Mamba 和 Transformer 两种架构,旨在高效处理长时间上下文窗口,同时减少资源消耗。Nemotron 3 系列专为基于代理的人工智能系统设计,这类系统能够自主执行复杂任务,持续进行长时间的交互。
新产品系列包括三个型号:Nano、Super 和 Ultra。当前 Nano 型号已正式上市,而 Super 和 Ultra 预计将在 2026 年上半年推出。英伟达在这次发布中打破了传统的纯 Transformer 架构,采用了一种混合架构,这种架构将高效的 Mamba 层与 Transformer 元素及混合专家(MoE)技术相结合。与传统的纯 Transformer 模型相比,Nemotron 3 能更好地处理长输入序列,同时保持内存使用稳定。
Nemotron 3 支持高达一百万个令牌的上下文窗口,这使其与 OpenAI 和 Google 等前沿模型相匹配,可以在不对硬件造成过大压力的情况下,存储大量的信息,比如整个代码库或长时间的对话历史。Nano 型号具有 316 亿个参数,但在每个处理步骤中,只有 30 亿个参数处于激活状态。根据人工智能分析指数(AII)的基准测试,Nemotron 3 在准确率上可与 gpt-oss-20B 和 Qwen3-30B 相媲美,并且在令牌吞吐量上表现更为出色。
英伟达还为更强大的 Super 和 Ultra 型号引入了两项重要架构改进。第一项是 LatentMoE,它旨在解决标准 MoE 模型中内存带宽的开销问题,允许系统在处理令牌之前将其投影到压缩的潜在表示中。第二项改进是多词元预测(MTP)技术,在训练过程中可以同时预测多个词元,从而提高文本生成速度和逻辑推理能力。
此外,英伟达发布了 Nano 型号的权重、训练方案和多个数据集,包括基于 Common Crawl 的 Nemotron-CC-v2.1 等,这为开发者提供了强大的支持。此次发布符合英伟达致力于开发更小型语言模型的战略,以优先考虑速度而非原始性能。
via AI新闻资讯 (author: AI Base)
英伟达近日发布了其全新的 Nemotron 3 系列,这一系列产品结合了 Mamba 和 Transformer 两种架构,旨在高效处理长时间上下文窗口,同时减少资源消耗。Nemotron 3 系列专为基于代理的人工智能系统设计,这类系统能够自主执行复杂任务,持续进行长时间的交互。
新产品系列包括三个型号:Nano、Super 和 Ultra。当前 Nano 型号已正式上市,而 Super 和 Ultra 预计将在 2026 年上半年推出。英伟达在这次发布中打破了传统的纯 Transformer 架构,采用了一种混合架构,这种架构将高效的 Mamba 层与 Transformer 元素及混合专家(MoE)技术相结合。与传统的纯 Transformer 模型相比,Nemotron 3 能更好地处理长输入序列,同时保持内存使用稳定。
Nemotron 3 支持高达一百万个令牌的上下文窗口,这使其与 OpenAI 和 Google 等前沿模型相匹配,可以在不对硬件造成过大压力的情况下,存储大量的信息,比如整个代码库或长时间的对话历史。Nano 型号具有 316 亿个参数,但在每个处理步骤中,只有 30 亿个参数处于激活状态。根据人工智能分析指数(AII)的基准测试,Nemotron 3 在准确率上可与 gpt-oss-20B 和 Qwen3-30B 相媲美,并且在令牌吞吐量上表现更为出色。
英伟达还为更强大的 Super 和 Ultra 型号引入了两项重要架构改进。第一项是 LatentMoE,它旨在解决标准 MoE 模型中内存带宽的开销问题,允许系统在处理令牌之前将其投影到压缩的潜在表示中。第二项改进是多词元预测(MTP)技术,在训练过程中可以同时预测多个词元,从而提高文本生成速度和逻辑推理能力。
此外,英伟达发布了 Nano 型号的权重、训练方案和多个数据集,包括基于 Common Crawl 的 Nemotron-CC-v2.1 等,这为开发者提供了强大的支持。此次发布符合英伟达致力于开发更小型语言模型的战略,以优先考虑速度而非原始性能。
划重点:
🌟 Nemotron 3 系列结合 Mamba 和 Transformer 架构,提升 AI 代理处理效率。
🚀 Nano 型号已上市,Super 和 Ultra 预计于 2026 年上半年推出。
📊 英伟达发布模型权重和训练数据集,助力开发者创新。
via AI新闻资讯 (author: AI Base)
xAI重磅发布Grok Voice Agent API:每分钟仅0.05美元,音频推理基准登顶第一!
xAI正式推出Grok Voice Agent API,为开发者开放实时语音交互能力。这一API基于Grok语音技术栈打造,已在移动应用和数百万Tesla车辆中服务海量用户,现向全球开发者全面开放。
极致性价比:每分钟仅0.05美元
Grok Voice Agent API以行业领先的成本效率脱颖而出,采用简单平价计费模式——每分钟连接时间仅0.05美元。这一定价显著低于主流竞品,帮助开发者以最低成本构建高性能语音应用。
音频推理基准排名第一
在权威音频推理基准Big Bench Audio上,Grok Voice Agent API位居第一。该API平均首音频响应时间不到1秒,比最接近的竞争对手快近5倍,展现出卓越的实时响应与推理能力。
核心能力一览
- 实时双向语音通信:支持流式音频输入输出,实现低延迟、自然对话体验。
- 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备原生级发音、口音和方言捕捉能力。
- 自动语言识别与切换:无需配置,即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
- 外部工具调用:轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络和X平台数据。
- 实时联网搜索与推理:在对话中即时查询信息并进行复杂推理。
- 情感提示控制语音:通过提示调节语音情感表达,提升交互自然度。
- 多种人声选择:提供多样化声音选项,包括Sal、Rex、Eve、Leo等经典角色,以及Mika、Valentin等伴侣型人格。
- 兼容OpenAI Realtime API规范:无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。
未来展望
xAI表示,该API将持续迭代,未来几周内将推出独立文本到语音(TTS)和语音到文本(STT)端点,以及进一步优化的音频模型,提升发音准确度和延迟表现。
via AI新闻资讯 (author: AI Base)
xAI正式推出Grok Voice Agent API,为开发者开放实时语音交互能力。这一API基于Grok语音技术栈打造,已在移动应用和数百万Tesla车辆中服务海量用户,现向全球开发者全面开放。
极致性价比:每分钟仅0.05美元
Grok Voice Agent API以行业领先的成本效率脱颖而出,采用简单平价计费模式——每分钟连接时间仅0.05美元。这一定价显著低于主流竞品,帮助开发者以最低成本构建高性能语音应用。
音频推理基准排名第一
在权威音频推理基准Big Bench Audio上,Grok Voice Agent API位居第一。该API平均首音频响应时间不到1秒,比最接近的竞争对手快近5倍,展现出卓越的实时响应与推理能力。
核心能力一览
- 实时双向语音通信:支持流式音频输入输出,实现低延迟、自然对话体验。
- 多语言支持:覆盖包括中文在内的数十种语言(官方称超100种),具备原生级发音、口音和方言捕捉能力。
- 自动语言识别与切换:无需配置,即可自动检测用户语言并无缝切换;开发者也可通过系统提示指定响应语言。
- 外部工具调用:轻松集成自定义工具,或接入xAI的实时搜索能力,覆盖网络和X平台数据。
- 实时联网搜索与推理:在对话中即时查询信息并进行复杂推理。
- 情感提示控制语音:通过提示调节语音情感表达,提升交互自然度。
- 多种人声选择:提供多样化声音选项,包括Sal、Rex、Eve、Leo等经典角色,以及Mika、Valentin等伴侣型人格。
- 兼容OpenAI Realtime API规范:无缝迁移现有应用,并支持xAI LiveKit插件,便于快速集成。
未来展望
xAI表示,该API将持续迭代,未来几周内将推出独立文本到语音(TTS)和语音到文本(STT)端点,以及进一步优化的音频模型,提升发音准确度和延迟表现。
via AI新闻资讯 (author: AI Base)
字节跳动推出 TRAE CN 企业版,助力高效编程
字节跳动正式发布了其 AI 编程工具 TRAE CN 的企业版。这款工具在字节内部已经获得了超过92% 的工程师的使用,显示出其强大的实用性。同时,个人版的注册用户也已经突破了600万。
根据字节内部的实践数据,TRAE 在抖音生活服务团队的 AI 代码贡献率高达43%,这表明其在提升工作效率方面的显著效果。为了满足企业在性能、部署适配、效能追踪及代码安全等方面的需求,TRAE CN 企业版经过了全面优化。
这款新产品能够支持多达10万个文件和1.5亿行代码的容量,具备强大的处理能力。同时,它实现了从知识库到 Agent 的全场景业务适配,方便用户在不同场景下进行高效的代码编写和管理。此外,TRAE CN 企业版还支持实时效能追踪管理,让企业能够随时掌握项目进展和代码执行情况。
在安全性方面,TRAE CN 企业版采用全链路代码加密传输,确保数据的安全性。值得一提的是,它还提供云端零存储的解决方案,保障企业在使用过程中的合规性与安全性。
via AI新闻资讯 (author: AI Base)
字节跳动正式发布了其 AI 编程工具 TRAE CN 的企业版。这款工具在字节内部已经获得了超过92% 的工程师的使用,显示出其强大的实用性。同时,个人版的注册用户也已经突破了600万。
根据字节内部的实践数据,TRAE 在抖音生活服务团队的 AI 代码贡献率高达43%,这表明其在提升工作效率方面的显著效果。为了满足企业在性能、部署适配、效能追踪及代码安全等方面的需求,TRAE CN 企业版经过了全面优化。
这款新产品能够支持多达10万个文件和1.5亿行代码的容量,具备强大的处理能力。同时,它实现了从知识库到 Agent 的全场景业务适配,方便用户在不同场景下进行高效的代码编写和管理。此外,TRAE CN 企业版还支持实时效能追踪管理,让企业能够随时掌握项目进展和代码执行情况。
在安全性方面,TRAE CN 企业版采用全链路代码加密传输,确保数据的安全性。值得一提的是,它还提供云端零存储的解决方案,保障企业在使用过程中的合规性与安全性。
划重点:
🌟 TRAE CN 企业版正式发布,已有超92% 的字节工程师使用。
📈 支持10万文件和1.5亿行代码,性能优化显著。
🔒 全链路代码加密传输,确保企业数据安全合规。
via AI新闻资讯 (author: AI Base)
xAI 推最快语音代理 API,支持中文实时搜索与情绪控制
据 AIbase 报道,xAI 正式发布了 Grok 语音代理 API,以每分钟仅 0.05美元的极具竞争力价格,在实时语音 AI 领域掀起了性能与性价比的双重风暴。该模型在音频推理基准测试中高居榜首,凭借不足1秒的首音延迟,实现了比竞品快近5倍的响应速度。
技术上,Grok 语音代理不仅支持包括中文在内的数十种语言自动检测与自由切换,更深度集成了实时网页搜索与推理能力,使其回复能够紧跟全网最新资讯。通过支持外部工具调用、情绪控制及多种语音选项,开发者可以构建出极具表现力且能执行实际任务的 AI 智能体。
值得一提的是,该 API 完全兼容 OpenAI 实时 API 规范,这为追求高性能、低成本方案的开发者提供了无缝迁移的可能,标志着马斯克在实时对话 AI 赛道上正式迈出了挑战行业格局的关键一步。
via AI新闻资讯 (author: AI Base)
据 AIbase 报道,xAI 正式发布了 Grok 语音代理 API,以每分钟仅 0.05美元的极具竞争力价格,在实时语音 AI 领域掀起了性能与性价比的双重风暴。该模型在音频推理基准测试中高居榜首,凭借不足1秒的首音延迟,实现了比竞品快近5倍的响应速度。
技术上,Grok 语音代理不仅支持包括中文在内的数十种语言自动检测与自由切换,更深度集成了实时网页搜索与推理能力,使其回复能够紧跟全网最新资讯。通过支持外部工具调用、情绪控制及多种语音选项,开发者可以构建出极具表现力且能执行实际任务的 AI 智能体。
值得一提的是,该 API 完全兼容 OpenAI 实时 API 规范,这为追求高性能、低成本方案的开发者提供了无缝迁移的可能,标志着马斯克在实时对话 AI 赛道上正式迈出了挑战行业格局的关键一步。
via AI新闻资讯 (author: AI Base)
马斯克“新战书”:xAI两三年内超越竞争对手
多位知情人士透露,上周在xAI公司旧金山总部举行的全体员工大会上,马斯克扬言,只要公司能够顺利挺过未来两到三年,xAI就能战胜竞争对手。他补充称,该公司快速扩展其算力和数据容量的能力将是在所谓超级智能的竞争中致胜的关键,并最终有望让xAI成为最强大的AI公司。马斯克表示,xAI有可能在未来几年内实现通用人工智能(AGI),甚至最早可能在2026年实现。此外,马斯克还告诉员工,与其他人工智能公司相比,xAI将具有优势,因为它每年可以获得约200亿至300亿美元的资金支持,并且能够受益于他旗下其他公司的协同效应。特斯拉今年早些时候已将Grok集成进其生产的车辆中。
—— 财联社
via 风向旗参考快讯 - Telegram Channel
多位知情人士透露,上周在xAI公司旧金山总部举行的全体员工大会上,马斯克扬言,只要公司能够顺利挺过未来两到三年,xAI就能战胜竞争对手。他补充称,该公司快速扩展其算力和数据容量的能力将是在所谓超级智能的竞争中致胜的关键,并最终有望让xAI成为最强大的AI公司。马斯克表示,xAI有可能在未来几年内实现通用人工智能(AGI),甚至最早可能在2026年实现。此外,马斯克还告诉员工,与其他人工智能公司相比,xAI将具有优势,因为它每年可以获得约200亿至300亿美元的资金支持,并且能够受益于他旗下其他公司的协同效应。特斯拉今年早些时候已将Grok集成进其生产的车辆中。
—— 财联社
via 风向旗参考快讯 - Telegram Channel
12月18日,人工智能搜索平台 Perplexity 宣布,其集成的最新大模型 Gemini3Flash 已全面向 Pro 和 Max 订阅用户开放。此次更新标志着 Perplexity 在提升响应速度与推理效率方面迈出关键一步。
Gemini3Flash 是谷歌近期推出的轻量级高性能模型,主打低延迟与高吞吐能力,在保持强大语言理解能力的同时,显著优化了推理成本与响应速度。Perplexity 表示,该模型将为用户提供更快速、流畅的问答体验,尤其适用于需要实时信息整合与多轮交互的复杂查询场景。
据官方介绍,Pro 与 Max 用户无需额外操作,即可在现有界面中直接调用 Gemini3Flash。系统将根据查询类型智能选择最合适的模型,确保在速度与准确性之间取得最佳平衡。此外,该模型对多语言支持和代码理解能力也进行了针对性优化,进一步拓展了 Perplexity 在专业领域的应用边界。
此次集成是 Perplexity 与谷歌深度合作的又一成果。随着 Gemini3Flash 的上线,Perplexity 有望在竞争激烈的 AI 搜索赛道中强化其技术优势,为高阶用户提供更高效、精准的信息服务。未来,该模型或将进一步下放至免费用户层级,扩大技术普惠范围。
via AI新闻资讯 (author: AI Base)
近日,微软正式开源了其最新的图像到3D 模型生成工具 ——TRELLIS.2。该工具在生成高质量、带材质的3D 模型方面表现出色,仅需输入一张图片,便可迅速生成可供 Blender、Unity、Unreal 等平台使用的.glb 格式三角形网格文件。
TRELLIS.2使用了一种名为4B 的模型,能够处理分辨率在512³ 到1536³ 之间的图像。在 NVIDIA H100显卡的支持下,生成512³ 分辨率的3D 模型仅需约3秒,1024³ 分辨率的模型则需约17秒,而生成1536³ 分辨率的模型则约需1分钟。这一速度使得用户能够在极短的时间内获得高精度的3D 模型,极大地提升了工作效率。
TRELLIS.2不仅能生成3D 模型,还附带了 PBR 四件套贴图,包括颜色、粗糙度、金属度和透明度,这些特性对于电商场景尤为重要。商家只需拍摄产品图片,上传至 TRELLIS.2,即可在1分钟内获得适合上架的3D 模型,大幅简化了电商产品展示的流程。
TRELLIS.2的发布标志着图像生成3D 技术的进一步发展,吸引了众多开发者和企业的关注。通过这一工具,用户能够轻松制作出高质量的3D 内容,无论是在游戏开发、虚拟现实还是电子商务领域,都具备广泛的应用潜力。
HF:https://huggingface.co/microsoft/TRELLIS.2-4B
github:https://github.com/microsoft/TRELLIS.2
划重点:
🌟 TRELLIS.2是一款微软开源的图像到3D 模型生成工具,能迅速生成高质量3D 模型。
⏱️ 该工具在 NVIDIA H100显卡上生成512³ 分辨率模型仅需3秒,效率极高。
🛒 附带 PBR 四件套贴图,方便电商用户快速将产品转为3D 展示。
via AI新闻资讯 (author: AI Base)
火山引擎发布 AI 节省计划,豆包大模型最高降价47%
在12月18日举办的火山引擎 FORCE 原动力大会上,火山引擎总裁谭待发布了多项重磅更新,旨在通过视觉模型进化、生态整合及极具竞争力的定价策略,加速 AI 在企业端的规模化普惠。
在多模态领域,豆包视觉模型迎来双重迭代。图像创作模型 Seedream4.5 能力显著增强,已支持多图组合、创意写真、虚拟试穿及海报设计等多种商业化功能。与此同时,全新视频生成模型 Seedance1.5Pro 正式亮相,该版本实现了音画高精同步与多人多语言对白,具备影视级镜头叙事能力,并引入 Draft 样片功能,让开发者能以极低成本快速验证创意一致性。
生态应用方面,豆包助手 API 正式登陆火山方舟大模型服务平台。首批上线的“日常沟通”与“联网搜索”等能力,赋予了企业级应用更强的实时信息获取与拟人化交互体验。为了进一步降低模型使用门槛,火山引擎同步推出 “AI 节省计划”。
该计划覆盖所有按量后付费的大模型产品,采用阶梯式折扣模式,承诺用量越多单价越低,最高可为企业节省 47% 的使用成本。通过软硬件协同优化与商业模式创新,火山引擎正致力于让大模型真正成为人人用得起、用得好的生产力基座。
via AI新闻资讯 (author: AI Base)
在12月18日举办的火山引擎 FORCE 原动力大会上,火山引擎总裁谭待发布了多项重磅更新,旨在通过视觉模型进化、生态整合及极具竞争力的定价策略,加速 AI 在企业端的规模化普惠。
在多模态领域,豆包视觉模型迎来双重迭代。图像创作模型 Seedream4.5 能力显著增强,已支持多图组合、创意写真、虚拟试穿及海报设计等多种商业化功能。与此同时,全新视频生成模型 Seedance1.5Pro 正式亮相,该版本实现了音画高精同步与多人多语言对白,具备影视级镜头叙事能力,并引入 Draft 样片功能,让开发者能以极低成本快速验证创意一致性。
生态应用方面,豆包助手 API 正式登陆火山方舟大模型服务平台。首批上线的“日常沟通”与“联网搜索”等能力,赋予了企业级应用更强的实时信息获取与拟人化交互体验。为了进一步降低模型使用门槛,火山引擎同步推出 “AI 节省计划”。
该计划覆盖所有按量后付费的大模型产品,采用阶梯式折扣模式,承诺用量越多单价越低,最高可为企业节省 47% 的使用成本。通过软硬件协同优化与商业模式创新,火山引擎正致力于让大模型真正成为人人用得起、用得好的生产力基座。
via AI新闻资讯 (author: AI Base)
火山引擎FORCE大会亮剑:豆包大模型1.8+Seedance 1.5 Pro发布,日均50万亿Tokens登顶中国第一
在今日举行的火山引擎FORCE原动力大会上,字节跳动旗下智能科技品牌重磅升级其AI核心能力:正式发布豆包大模型1. 8 与视频生成模型Seedance 1.5 Pro,并同步推出“AI节省计划”,旨在进一步降低企业使用大模型的成本门槛。
性能方面,豆包大模型1. 8 在推理、多语言、代码生成与工具调用等关键维度实现显著提升;而Seedance 1.5 Pro则聚焦视频生成质量与一致性,支持更长时长、更高帧率的可控内容创作,为短视频、广告、游戏等领域提供工业化级视觉生成能力。
更引人注目的是其规模化落地的实绩:截至 2024 年 12 月,豆包大模型日均Tokens使用量已突破 50 万亿,稳居中国第一、全球第三。目前,超 100 家企业在火山引擎平台上的累计Tokens消耗量超过一万亿,涵盖电商、金融、文娱、制造等多个行业,标志着豆包已从技术产品走向大规模产业应用。
“AI节省计划”的推出,则直击当前企业AI部署的核心痛点——成本。火山引擎将通过模型压缩、推理优化、资源调度等技术手段,帮助客户在同等算力下实现更高吞吐与更低单位Token成本,加速AI在业务场景中的深度渗透。
随着豆包手机、AI眼镜等终端产品相继落地,字节跳动正以“大模型+云+终端+场景”四轮驱动,构建完整的AI生态闭环。而 50 万亿Tokens的日均使用量,不仅是一个技术指标,更是市场对豆包能力与性价比的集体投票——在中国AI从“可用”迈向“好用、常用”的关键阶段,火山引擎已站上浪潮之巅。
via AI新闻资讯 (author: AI Base)
在今日举行的火山引擎FORCE原动力大会上,字节跳动旗下智能科技品牌重磅升级其AI核心能力:正式发布豆包大模型1. 8 与视频生成模型Seedance 1.5 Pro,并同步推出“AI节省计划”,旨在进一步降低企业使用大模型的成本门槛。
性能方面,豆包大模型1. 8 在推理、多语言、代码生成与工具调用等关键维度实现显著提升;而Seedance 1.5 Pro则聚焦视频生成质量与一致性,支持更长时长、更高帧率的可控内容创作,为短视频、广告、游戏等领域提供工业化级视觉生成能力。
更引人注目的是其规模化落地的实绩:截至 2024 年 12 月,豆包大模型日均Tokens使用量已突破 50 万亿,稳居中国第一、全球第三。目前,超 100 家企业在火山引擎平台上的累计Tokens消耗量超过一万亿,涵盖电商、金融、文娱、制造等多个行业,标志着豆包已从技术产品走向大规模产业应用。
“AI节省计划”的推出,则直击当前企业AI部署的核心痛点——成本。火山引擎将通过模型压缩、推理优化、资源调度等技术手段,帮助客户在同等算力下实现更高吞吐与更低单位Token成本,加速AI在业务场景中的深度渗透。
随着豆包手机、AI眼镜等终端产品相继落地,字节跳动正以“大模型+云+终端+场景”四轮驱动,构建完整的AI生态闭环。而 50 万亿Tokens的日均使用量,不仅是一个技术指标,更是市场对豆包能力与性价比的集体投票——在中国AI从“可用”迈向“好用、常用”的关键阶段,火山引擎已站上浪潮之巅。
via AI新闻资讯 (author: AI Base)
豆包AI眼镜明年上市!联合润欣科技、老凤祥打造2000元内智能穿戴新品
字节跳动旗下豆包大模型正加速落地硬件终端。据最新消息,豆包AI眼镜已进入量产前阶段,由火山引擎提供底层技术支撑,润欣科技负责模组与硬件程序设计,并携手百年珠宝品牌老凤祥共同打造外观与佩戴体验。该产品定价 2000 元以内,预计 2025 年初正式上市,将成为国内首款深度融合大模型能力的亲民级AI眼镜。
在技术架构上,该眼镜依托火山引擎的RTC(实时音视频)技术,实现低延迟语音交互与云端协同;核心智能则由豆包大模型驱动,支持实时语音助手、环境感知、多轮对话、翻译、信息摘要等场景化功能。用户可通过语音指令完成导航、拍照识别、日程提醒、通话转录等操作,真正实现“听得懂、看得清、用得顺”的端侧AI体验。
值得注意的是,此次合作中老凤祥的加入,不仅为AI眼镜注入时尚与工艺基因,更探索了智能硬件与传统消费品牌的跨界融合新路径——科技不再冰冷,而是兼具美学与实用性的日常配饰。
随着AI终端从手机向可穿戴设备延伸,豆包眼镜的推出标志着字节跳动正以“大模型+硬件+渠道”三位一体策略,抢占下一代人机交互入口。在 2000 元价格带,这款产品或将引爆大众市场对AI眼镜的首次规模化认知,推动智能穿戴从“极客玩具”走向“生活刚需”。
via AI新闻资讯 (author: AI Base)
字节跳动旗下豆包大模型正加速落地硬件终端。据最新消息,豆包AI眼镜已进入量产前阶段,由火山引擎提供底层技术支撑,润欣科技负责模组与硬件程序设计,并携手百年珠宝品牌老凤祥共同打造外观与佩戴体验。该产品定价 2000 元以内,预计 2025 年初正式上市,将成为国内首款深度融合大模型能力的亲民级AI眼镜。
在技术架构上,该眼镜依托火山引擎的RTC(实时音视频)技术,实现低延迟语音交互与云端协同;核心智能则由豆包大模型驱动,支持实时语音助手、环境感知、多轮对话、翻译、信息摘要等场景化功能。用户可通过语音指令完成导航、拍照识别、日程提醒、通话转录等操作,真正实现“听得懂、看得清、用得顺”的端侧AI体验。
值得注意的是,此次合作中老凤祥的加入,不仅为AI眼镜注入时尚与工艺基因,更探索了智能硬件与传统消费品牌的跨界融合新路径——科技不再冰冷,而是兼具美学与实用性的日常配饰。
随着AI终端从手机向可穿戴设备延伸,豆包眼镜的推出标志着字节跳动正以“大模型+硬件+渠道”三位一体策略,抢占下一代人机交互入口。在 2000 元价格带,这款产品或将引爆大众市场对AI眼镜的首次规模化认知,推动智能穿戴从“极客玩具”走向“生活刚需”。
via AI新闻资讯 (author: AI Base)