https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
昆仑万维发布 “4+3 战略”:从技术底座到商业闭环
昆仑万维(300418.SZ)近日在其 2025 年度报告中展示了其 “4+3 战略”,标志着在人工智能(AI)驱动的内容生产革命中,公司的发展方向愈发明确。根据报告,昆仑万维的营业总收入达到 81.98 亿元,同比增长 44.78%。在海外市场的积极拓展下,公司的海外收入也大幅增长,整体业务收入跃升至 77.23 亿元,同比增长 49.91%。
“4+3 战略” 不仅是一个数字组合,更是一张涵盖技术和商业成功的清晰蓝图。该战略的核心在于将四个顶尖的 AI 模型与三个不同成长阶段的应用平台紧密结合,形成相辅相成的商业闭环。董事长周亚辉表示,AI 不仅提升了生产效率,也重新定义了组织的运作方式。
在这四个 SOTA 模型中,视频生成模型 SkyReels-V4 成为了公司的 “变现利器”。自发布以来,SkyReels-V4 实现了从短剧创作到音频驱动的全面转变,显著降低了短剧制作成本。通过人工智能,整个制作过程可以实现从剧本创作到配乐配音的全链路自动化,为内容创作带来了革命性变化。
此外,Mureka 音乐生成模型在全球市场中也显露出强大的潜力。用户只需输入情感或场景,便能轻松生成专业级音乐,大大降低了创作门槛。昆仑万维还在 AI 游戏领域推出了 Matrix-Game 3.0,该模型能实时生成可交互的游戏世界,颠覆了传统的游戏开发模式。
在商业平台方面,DramaWave 短剧平台已成为公司最稳健的现金流来源,其每月流水近 3600 万美元,年度经常性收入超过 4 亿美元,全球用户量持续增长。与此同时,Mureka 音乐平台也在快速扩张,凭借其强大的技术优势,迅速吸引了全球创作者的关注。
昆仑万维的 “4+3 战略” 无疑为公司未来的发展指明了方向,并为整个行业的技术创新和商业模式转型提供了重要启示。
划重点:
🌟 ** 营业收入大幅增长 **:昆仑万维 2025 年总收入达到 81.98 亿元,同比增长 44.78%。
🎬 **AI 模型重塑内容生产 **:视频生成模型 SkyReels-V4 显著降低短剧制作成本,实现全链路 AI 自动化。
🎶 ** 音乐平台快速扩张 **:Mureka 平台凭借创新技术吸引全球创作者,成为音乐创作的新宠。
via AI新闻资讯 (author: AI Base)
昆仑万维(300418.SZ)近日在其 2025 年度报告中展示了其 “4+3 战略”,标志着在人工智能(AI)驱动的内容生产革命中,公司的发展方向愈发明确。根据报告,昆仑万维的营业总收入达到 81.98 亿元,同比增长 44.78%。在海外市场的积极拓展下,公司的海外收入也大幅增长,整体业务收入跃升至 77.23 亿元,同比增长 49.91%。
“4+3 战略” 不仅是一个数字组合,更是一张涵盖技术和商业成功的清晰蓝图。该战略的核心在于将四个顶尖的 AI 模型与三个不同成长阶段的应用平台紧密结合,形成相辅相成的商业闭环。董事长周亚辉表示,AI 不仅提升了生产效率,也重新定义了组织的运作方式。
在这四个 SOTA 模型中,视频生成模型 SkyReels-V4 成为了公司的 “变现利器”。自发布以来,SkyReels-V4 实现了从短剧创作到音频驱动的全面转变,显著降低了短剧制作成本。通过人工智能,整个制作过程可以实现从剧本创作到配乐配音的全链路自动化,为内容创作带来了革命性变化。
此外,Mureka 音乐生成模型在全球市场中也显露出强大的潜力。用户只需输入情感或场景,便能轻松生成专业级音乐,大大降低了创作门槛。昆仑万维还在 AI 游戏领域推出了 Matrix-Game 3.0,该模型能实时生成可交互的游戏世界,颠覆了传统的游戏开发模式。
在商业平台方面,DramaWave 短剧平台已成为公司最稳健的现金流来源,其每月流水近 3600 万美元,年度经常性收入超过 4 亿美元,全球用户量持续增长。与此同时,Mureka 音乐平台也在快速扩张,凭借其强大的技术优势,迅速吸引了全球创作者的关注。
昆仑万维的 “4+3 战略” 无疑为公司未来的发展指明了方向,并为整个行业的技术创新和商业模式转型提供了重要启示。
划重点:
🌟 ** 营业收入大幅增长 **:昆仑万维 2025 年总收入达到 81.98 亿元,同比增长 44.78%。
🎬 **AI 模型重塑内容生产 **:视频生成模型 SkyReels-V4 显著降低短剧制作成本,实现全链路 AI 自动化。
🎶 ** 音乐平台快速扩张 **:Mureka 平台凭借创新技术吸引全球创作者,成为音乐创作的新宠。
via AI新闻资讯 (author: AI Base)
据报道,SpaceX在其最近提交的招股说明书中警告称,针对其人工智能部门xAI创建和传播性虐待图像的多项调查可能会导致其失去某些市场的准入资格。在有关风险因素的部分中,SpaceX提交的S-1上市申请文件称,全球众多机构“正在积极调查并就社交媒体或人工智能的使用情况”展开相关研究,这些研究涉及广告、消费者保护以及有害内容的传播等方面的问题。
SpaceX在S-1文件中强调,该公司面临的一项挑战是“有指控称,其人工智能产品被用于创建未经同意的露骨图像或内容,其中涉及儿童的性化场景”。该文件指出,此类监管调查可能使SpaceX面临诉讼、责任和政府处罚——“包括失去进入某些市场的机会,这种情况过去曾发生过”。
目前尚不清楚潜在的监管措施是会阻止SpaceX整体进入某些市场,还是只会影响其子公司xAI。
尽管监管文件中列举的风险因素包括爱尔兰数据保护委员会于2月份发起的一项调查,但xAI公司因其平台上大量出现的性暗示图片而面临全球审查。这些内容在2025年末和2026年初尤为突出,主要内容是该公司社交媒体平台X上近乎全裸的女性和儿童图片。
xAI在1月份表示,已采取措施阻止用户请求获取真实人物的性暗示图片,并表示会阻止用户在相关法律禁止的地区生成此类内容。
此前在加拿大、英国、巴西、加利福尼亚州和其他地区启动的多项调查仍在进行中。在法国,马斯克周一无视了检察官的传唤,拒绝回答有关其滥用算法、非法提取数据以及参与传播儿童性虐待材料的指控。
S-1文件中关于市场准入的警告凸显了针对xAI的各项调查的重要性,尤其是针对人工智能生成涉嫌儿童性虐待图像和非自愿女性性图像的调查。在某些司法管辖区,制作此类图像可能构成犯罪,而其传播是一个极具争议性的问题,能够迅速引发公众舆论。
XAI对Grok的限制措施似乎减缓了滥用内容的传播,但并未完全阻止。今年2月有报道称,即使用户明确警告Grok,这些图片中的人物并未同意,Grok仍然会生成性暗示图片。上周,有报道称发现 Grok 仍在公开生成性暗示图片,其中包括演员和流行歌星的图片。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
DeepSeek-V4预览版本正式上线并开源
4月24日消息,DeepSeek公司全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。据介绍,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。即日起登录官网chat.deepseek.com或官方App,即可与最新的DeepSeek-V4对话,探索1M超长上下文记忆的全新体验。API服务已同步更新,通过修改model_name为 deepseek-v4-pro或deepseek-v4-flash即可调用。DeepSeek-V4对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent 产品进行了适配优化,在代码及文档生成等任务上表现提升。
—— 凤凰网科技、开源地址
via 风向旗参考快讯 - Telegram Channel
4月24日消息,DeepSeek公司全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。据介绍,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。即日起登录官网chat.deepseek.com或官方App,即可与最新的DeepSeek-V4对话,探索1M超长上下文记忆的全新体验。API服务已同步更新,通过修改model_name为 deepseek-v4-pro或deepseek-v4-flash即可调用。DeepSeek-V4对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent 产品进行了适配优化,在代码及文档生成等任务上表现提升。
—— 凤凰网科技、开源地址
via 风向旗参考快讯 - Telegram Channel
DeepSeek V4 系列现已发布:
- 分为 Pro 和 Flash 两个版本,并开源
- 宣称 Pro 性能为开源 SOTA,部分基准测试超越闭源 SOTA(不含刚刚发布的 GPT-5.5)
- 标配 1M 上下文
via AI Copilot - Telegram Channel
OpenAI与Anthropic的阴影:Cursor500亿美元融资为何遭大厂投资者拒绝
处于AI 编程赛道核心地位的初创公司Cursor近期在寻求数十亿美元新一轮融资时遭遇阻力,其高达500亿美元的预期估值令多家后期科技投资机构望而却步。此前,SpaceX曾传出有意以600亿美元收购该公司,但在其领导层近期密集接触全球顶级投资者的过程中,包括Iconiq在内的多家大型基金表达了明确的拒绝意向。
融资遇冷的核心原因在于全球顶级资本已在AI 领域完成初期“站队”。知情人士指出,多数具备巨额出资能力的机构此前已向OpenAI和Anthropic注入数十亿美元。尤其是Anthropic旗下的Claude Code展现出更强劲的增长势头,导致投资者对Cursor能否在资源高度集中的竞争环境中突围持怀疑态度。一位近期接触过Cursor高层的基金经理坦言,面对该领域剧烈的技术迭代与巨头扩张,市场情绪已从激进扩张转为审慎防御。
当前 AI 行业的融资逻辑正在发生显著变化。随着Claude Code等背靠模型大厂的工具迅速崛起,独立编程插件的生存空间正受到挤压。投资者对Cursor500亿美元估值的迟疑,不仅反映出对单一垂类工具抗风险能力的担忧,更预示着 AI 编程市场已进入资源整合的下半场,资本开始向拥有底层模型能力的平台型巨头倾斜。
via AI新闻资讯 (author: AI Base)
处于AI 编程赛道核心地位的初创公司Cursor近期在寻求数十亿美元新一轮融资时遭遇阻力,其高达500亿美元的预期估值令多家后期科技投资机构望而却步。此前,SpaceX曾传出有意以600亿美元收购该公司,但在其领导层近期密集接触全球顶级投资者的过程中,包括Iconiq在内的多家大型基金表达了明确的拒绝意向。
融资遇冷的核心原因在于全球顶级资本已在AI 领域完成初期“站队”。知情人士指出,多数具备巨额出资能力的机构此前已向OpenAI和Anthropic注入数十亿美元。尤其是Anthropic旗下的Claude Code展现出更强劲的增长势头,导致投资者对Cursor能否在资源高度集中的竞争环境中突围持怀疑态度。一位近期接触过Cursor高层的基金经理坦言,面对该领域剧烈的技术迭代与巨头扩张,市场情绪已从激进扩张转为审慎防御。
当前 AI 行业的融资逻辑正在发生显著变化。随着Claude Code等背靠模型大厂的工具迅速崛起,独立编程插件的生存空间正受到挤压。投资者对Cursor500亿美元估值的迟疑,不仅反映出对单一垂类工具抗风险能力的担忧,更预示着 AI 编程市场已进入资源整合的下半场,资本开始向拥有底层模型能力的平台型巨头倾斜。
via AI新闻资讯 (author: AI Base)
相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,追及「御三家」模型能力。
DeepSeek-V4-Flash 展现出了接近高级模型的的推理能力与 Agent 能力(适合日常龙虾等服务)。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。
DeepSeek-V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。
V4-Pro 与 V4-Flash 最大上下文长度为 1M,均同时支持非思考模式与思考模式。
DeepSeek
🌸 在花频道|茶馆讨论|投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
we are seeing elevated errors on Sonnet 46
Apr 24, 02:55 UTC
Update - We are continuing to investigate this issue.
Apr 24, 02:55 UTC
Investigating - We are currently investigating this issue.
via Claude Status - Incident History
Apr 24, 02:55 UTC
Update - We are continuing to investigate this issue.
Apr 24, 02:55 UTC
Investigating - We are currently investigating this issue.
via Claude Status - Incident History
万兴科技推出万兴脑图 AI,开创思维导图新纪元
A 股上市公司万兴科技在人工智能生成内容(AIGC)领域持续发力,其旗下的绘图创意软件 “万兴脑图”(原名亿图脑图)宣布正式上线一项全新的功能 —— 万兴脑图 AI。这一创新标志着万兴脑图成为国内首款支持 AI Agent 功能的专业思维导图软件,为知识管理与办公效率提升带来了新的可能。
在此次升级中,万兴脑图 AI 不仅延续了用户熟悉的手绘模式,最近还在公测阶段得到了用户的积极反馈,进一步增强了软件的互动性与智能化水平。通过对话驱动的 AI 知识工作台,用户能够更加便捷地进行思维导图的构建和管理,提升了工作效率和创造力。
via AI新闻资讯 (author: AI Base)
A 股上市公司万兴科技在人工智能生成内容(AIGC)领域持续发力,其旗下的绘图创意软件 “万兴脑图”(原名亿图脑图)宣布正式上线一项全新的功能 —— 万兴脑图 AI。这一创新标志着万兴脑图成为国内首款支持 AI Agent 功能的专业思维导图软件,为知识管理与办公效率提升带来了新的可能。
在此次升级中,万兴脑图 AI 不仅延续了用户熟悉的手绘模式,最近还在公测阶段得到了用户的积极反馈,进一步增强了软件的互动性与智能化水平。通过对话驱动的 AI 知识工作台,用户能够更加便捷地进行思维导图的构建和管理,提升了工作效率和创造力。
via AI新闻资讯 (author: AI Base)
多轮对话
本指南将介绍如何使用 DeepSeek
DeepSeek
下面的代码以 Python 语言,展示了如何进行上下文拼接,以实现多轮对话。
----------------------
在第一轮请求时,传递给 API 的
在第二轮请求时:
1. 要将第一轮中模型的输出添加到
2. 将新的提问添加到
最终传递给 API 的
via DeepSeek 新闻
本指南将介绍如何使用 DeepSeek
/chat/completions API 进行多轮对话。DeepSeek
/chat/completions API 是一个“无状态” API,即服务端不记录用户请求的上下文,用户在每次请求时,需将之前所有对话历史拼接好后,传递给对话 API。下面的代码以 Python 语言,展示了如何进行上下文拼接,以实现多轮对话。
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
# Round 1
messages = [{"role": "user", "content": "What's the highest mountain in the world?"}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages
)
messages.append(response.choices[0].message)
print(f"Messages Round 1: {messages}")
# Round 2
messages.append({"role": "user", "content": "What is the second?"})
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages
)
messages.append(response.choices[0].message)
print(f"Messages Round 2: {messages}")
----------------------
在第一轮请求时,传递给 API 的
messages 为:[
{"role": "user", "content": "What's the highest mountain in the world?"}
]
在第二轮请求时:
1. 要将第一轮中模型的输出添加到
messages 末尾2. 将新的提问添加到
messages 末尾最终传递给 API 的
messages 为:[
{"role": "user", "content": "What's the highest mountain in the world?"},
{"role": "assistant", "content": "The highest mountain in the world is Mount Everest."},
{"role": "user", "content": "What is the second?"}
]
via DeepSeek 新闻
对话前缀续写(Beta)
对话前缀续写沿用 Chat Completion API,用户提供 assistant 开头的消息,来让模型补全其余的消息。
注意事项
1. 使用对话前缀续写时,用户需确保
2. 用户需要设置
样例代码
下面给出了对话前缀续写的完整 Python 代码样例。在这个例子中,我们设置
via DeepSeek 新闻
对话前缀续写沿用 Chat Completion API,用户提供 assistant 开头的消息,来让模型补全其余的消息。
注意事项
1. 使用对话前缀续写时,用户需确保
messages 列表里最后一条消息的 role 为 assistant,并设置最后一条消息的 prefix 参数为 True。2. 用户需要设置
base_url="https://api.deepseek.com/beta" 来开启 Beta 功能。样例代码
下面给出了对话前缀续写的完整 Python 代码样例。在这个例子中,我们设置
assistant 开头的消息为 "```python\n" 来强制模型输出 python 代码,并设置 stop 参数为 ['```'] 来避免模型的额外解释。from openai import OpenAI
client = OpenAI(
api_key="<your api key>",
base_url="https://api.deepseek.com/beta",
)
messages = [
{"role": "user", "content": "Please write quick sort code"},
{"role": "assistant", "content": "```python\n", "prefix": True}
]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
stop=["```"],
)
print(response.choices[0].message.content)
via DeepSeek 新闻
FIM 补全(Beta)
在 FIM (Fill In the Middle) 补全中,用户可以提供前缀和后缀(可选),模型来补全中间的内容。FIM 常用于内容续写、代码补全等场景。
注意事项
1. 模型的最大补全长度为 4K。
2. 用户需要设置
样例代码
下面给出了 FIM 补全的完整 Python 代码样例。在这个例子中,我们给出了计算斐波那契数列函数的开头和结尾,来让模型补全中间的内容。
配置 Continue 代码补全插件
Continue 是一款支持代码补全的 VSCode 插件,您可以参考这篇文档来配置 Continue 以使用代码补全功能。
via DeepSeek 新闻
在 FIM (Fill In the Middle) 补全中,用户可以提供前缀和后缀(可选),模型来补全中间的内容。FIM 常用于内容续写、代码补全等场景。
注意事项
1. 模型的最大补全长度为 4K。
2. 用户需要设置
base_url="https://api.deepseek.com/beta" 来开启 Beta 功能。样例代码
下面给出了 FIM 补全的完整 Python 代码样例。在这个例子中,我们给出了计算斐波那契数列函数的开头和结尾,来让模型补全中间的内容。
from openai import OpenAI
client = OpenAI(
api_key="<your api key>",
base_url="https://api.deepseek.com/beta",
)
response = client.completions.create(
model="deepseek-v4-pro",
prompt="def fib(a):",
suffix=" return fib(a-1) + fib(a-2)",
max_tokens=128
)
print(response.choices[0].text)
配置 Continue 代码补全插件
Continue 是一款支持代码补全的 VSCode 插件,您可以参考这篇文档来配置 Continue 以使用代码补全功能。
via DeepSeek 新闻
JSON Output
在很多场景下,用户需要让模型严格按照 JSON 格式来输出,以实现输出的结构化,便于后续逻辑进行解析。
DeepSeek 提供了 JSON Output 功能,来确保模型输出合法的 JSON 字符串。
注意事项
1. 设置
2. 用户传入的 system 或 user prompt 中必须含有
3. 需要合理设置
4. 在使用 JSON Output 功能时,API 有概率会返回空的 content。我们正在积极优化该问题,您可以尝试修改 prompt 以缓解此类问题。
样例代码
这里展示了使用 JSON Output 功能的完整 Python 代码:
模型将会输出:
via DeepSeek 新闻
在很多场景下,用户需要让模型严格按照 JSON 格式来输出,以实现输出的结构化,便于后续逻辑进行解析。
DeepSeek 提供了 JSON Output 功能,来确保模型输出合法的 JSON 字符串。
注意事项
1. 设置
response_format 参数为 {'type': 'json_object'}。2. 用户传入的 system 或 user prompt 中必须含有
json 字样,并给出希望模型输出的 JSON 格式的样例,以指导模型来输出合法 JSON。3. 需要合理设置
max_tokens 参数,防止 JSON 字符串被中途截断。4. 在使用 JSON Output 功能时,API 有概率会返回空的 content。我们正在积极优化该问题,您可以尝试修改 prompt 以缓解此类问题。
样例代码
这里展示了使用 JSON Output 功能的完整 Python 代码:
import json
from openai import OpenAI
client = OpenAI(
api_key="<your api key>",
base_url="https://api.deepseek.com",
)
system_prompt = """
The user will provide some exam text. Please parse the "question" and "answer" and output them in JSON format.
EXAMPLE INPUT:
Which is the highest mountain in the world? Mount Everest.
EXAMPLE JSON OUTPUT:
{
"question": "Which is the highest mountain in the world?",
"answer": "Mount Everest"
}
"""
user_prompt = "Which is the longest river in the world? The Nile River."
messages = [{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
response_format={
'type': 'json_object'
}
)
print(json.loads(response.choices[0].message.content))
模型将会输出:
{
"question": "Which is the longest river in the world?",
"answer": "The Nile River"
}
via DeepSeek 新闻
上下文硬盘缓存
DeepSeek API 上下文硬盘缓存技术对所有用户默认开启,用户无需修改代码即可享用。
用户的每一个请求都会触发硬盘缓存的构建。若后续请求与之前的请求在前缀上存在重复,则重复部分只需要从缓存中拉取,计入“缓存命中”。
注意:两个请求间,只有重复的前缀部分才能触发“缓存命中”,详间下面的例子。
----------------------
例一:长文本问答
第一次请求
第二次请求
在上例中,两次请求都有相同的前缀,即
----------------------
例二:多轮对话
第一次请求
第二次请求
在上例中,第二次请求可以复用第一次请求开头的
----------------------
例三:使用 Few-shot 学习
在实际应用中,用户可以通过 Few-shot 学习的方式,来提升模型的输出效果。所谓 Few-shot 学习,是指在请求中提供一些示例,让模型学习到特定的模式。由于 Few-shot 一般提供相同的上下文前缀,在硬盘缓存的加持下,Few-shot 的费用显著降低。
第一次请求
第二次请求
在上例中,使用了 4-shots。两次请求只有最后一个问题不一样,第二次请求可以复用第一次请求中前 4 轮对话的内容,这部分会计入“缓存命中”。
----------------------
查看缓存命中情况
在 DeepSeek API 的返回中,我们在
1.
2.
硬盘缓存与输出随机性
硬盘缓存只匹配到用户输入的前缀部分,输出仍然是通过计算推理得到的,仍然受到 temperature 等参数的影响,从而引入随机性。其输出效果与不使用硬盘缓存相同。
其它说明
1. 缓存系统以 64 tokens 为一个存储单元,不足 64 tokens 的内容不会被缓存
2. 缓存系统是“尽力而为”,不保证 100% 缓存命中
3. 缓存构建耗时为秒级。缓存不再使用后会自动被清空,时间一般为几个小时到几天
via DeepSeek 新闻
DeepSeek API 上下文硬盘缓存技术对所有用户默认开启,用户无需修改代码即可享用。
用户的每一个请求都会触发硬盘缓存的构建。若后续请求与之前的请求在前缀上存在重复,则重复部分只需要从缓存中拉取,计入“缓存命中”。
注意:两个请求间,只有重复的前缀部分才能触发“缓存命中”,详间下面的例子。
----------------------
例一:长文本问答
第一次请求
messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."}
{"role": "user", "content": "<财报内容>\n\n请总结一下这份财报的关键信息。"}
]
第二次请求
messages: [
{"role": "system", "content": "你是一位资深的财报分析师..."}
{"role": "user", "content": "<财报内容>\n\n请分析一下这份财报的盈利情况。"}
]
在上例中,两次请求都有相同的前缀,即
system 消息 + user 消息中的 <财报内容>。在第二次请求时,这部分前缀会计入“缓存命中”。----------------------
例二:多轮对话
第一次请求
messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里?"}
]
第二次请求
messages: [
{"role": "system", "content": "你是一位乐于助人的助手"},
{"role": "user", "content": "中国的首都是哪里?"},
{"role": "assistant", "content": "中国的首都是北京。"},
{"role": "user", "content": "美国的首都是哪里?"}
]
在上例中,第二次请求可以复用第一次请求开头的
system 消息和 user 消息,这部分会计入“缓存命中”。----------------------
例三:使用 Few-shot 学习
在实际应用中,用户可以通过 Few-shot 学习的方式,来提升模型的输出效果。所谓 Few-shot 学习,是指在请求中提供一些示例,让模型学习到特定的模式。由于 Few-shot 一般提供相同的上下文前缀,在硬盘缓存的加持下,Few-shot 的费用显著降低。
第一次请求
messages: [
{"role": "system", "content": "你是一位历史学专家,用户将提供一系列问题,你的回答应当简明扼要,并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年?"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁?"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁?"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问清朝的开国皇帝是谁?"}
]
第二次请求
messages: [
{"role": "system", "content": "你是一位历史学专家,用户将提供一系列问题,你的回答应当简明扼要,并以`Answer:`开头"},
{"role": "user", "content": "请问秦始皇统一六国是在哪一年?"},
{"role": "assistant", "content": "Answer:公元前221年"},
{"role": "user", "content": "请问汉朝的建立者是谁?"},
{"role": "assistant", "content": "Answer:刘邦"},
{"role": "user", "content": "请问唐朝最后一任皇帝是谁"},
{"role": "assistant", "content": "Answer:李柷"},
{"role": "user", "content": "请问明朝的开国皇帝是谁?"},
{"role": "assistant", "content": "Answer:朱元璋"},
{"role": "user", "content": "请问商朝是什么时候灭亡的"},
]
在上例中,使用了 4-shots。两次请求只有最后一个问题不一样,第二次请求可以复用第一次请求中前 4 轮对话的内容,这部分会计入“缓存命中”。
----------------------
查看缓存命中情况
在 DeepSeek API 的返回中,我们在
usage 字段中增加了两个字段,来反映请求的缓存命中情况:1.
prompt_cache_hit_tokens:本次请求的输入中,缓存命中的 tokens 数(0.1 元 / 百万 tokens)2.
prompt_cache_miss_tokens:本次请求的输入中,缓存未命中的 tokens 数(1 元 / 百万 tokens)硬盘缓存与输出随机性
硬盘缓存只匹配到用户输入的前缀部分,输出仍然是通过计算推理得到的,仍然受到 temperature 等参数的影响,从而引入随机性。其输出效果与不使用硬盘缓存相同。
其它说明
1. 缓存系统以 64 tokens 为一个存储单元,不足 64 tokens 的内容不会被缓存
2. 缓存系统是“尽力而为”,不保证 100% 缓存命中
3. 缓存构建耗时为秒级。缓存不再使用后会自动被清空,时间一般为几个小时到几天
via DeepSeek 新闻
为了满足大家对 Anthropic API 生态的使用需求,我们的 API 新增了对 Anthropic API 格式的支持,其
通过简单的配置,即可将 DeepSeek 的能力,接入到 Anthropic API 生态中。
----------------------
将 DeepSeek 模型接入 Claude Code
请参考接入 Coding Agent
通过 Anthropic API 调用 DeepSeek 模型
1. 安装 Anthropic SDK
1. 配置环境变量
1. 调用 API
注意:当您给 DeepSeek 的 Anthropic API 传入不支持的模型名时,API 后端会自动将其映射到
----------------------
Anthropic API 兼容性细节
HTTP Header
Simple Fields
Tool Fields
tools
tool_choice
Message Fields
via DeepSeek 新闻
base_url 为 https://api.deepseek.com/anthropic。通过简单的配置,即可将 DeepSeek 的能力,接入到 Anthropic API 生态中。
----------------------
将 DeepSeek 模型接入 Claude Code
请参考接入 Coding Agent
通过 Anthropic API 调用 DeepSeek 模型
1. 安装 Anthropic SDK
pip install anthropic
1. 配置环境变量
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_API_KEY=${YOUR_API_KEY}
1. 调用 API
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="deepseek-v4-pro",
max_tokens=1000,
system="You are a helpful assistant.",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Hi, how are you?"
}
]
}
]
)
print(message.content)
注意:当您给 DeepSeek 的 Anthropic API 传入不支持的模型名时,API 后端会自动将其映射到
deepseek-v4-flash 模型。----------------------
Anthropic API 兼容性细节
HTTP Header
Simple Fields
Tool Fields
tools
tool_choice
Message Fields
via DeepSeek 新闻
近日,Soul AI Lab 宣布正式开源业内首个拥有14亿参数的实时数字人生成模型 ——SoulXFlashTalk。这个模型的特别之处在于,它能够实现亚秒级延迟和每秒32帧的高帧率,为行业提供了一套完整的实时交互解决方案。
SoulXFlashTalk 的开源意味着开发者将可以轻松访问相关的项目页面、技术报告、源代码和模型权重,形成一个全面开放的体系。这一举措不仅能有效降低行业内的研发门槛,也将为更多的创新项目提供基础支持。值得一提的是,早在去年10月,Soul 便已经开源了语音合成模型 SoulXPodcast,此次的开源标志着 Soul 在 “语音 + 视觉” 双模态开源矩阵的布局上又迈出了重要一步。
Soul 的开源战略并不仅限于技术的共享,更是希望通过开放的方式,促进 AI 生态的共同发展。公司表示,未来将继续坚持开源路线,开放更多 AI 技术成果,从而推动 AI 与社交领域的创新与融合。
随着 Soul 在多模态 AI 生态布局的不断完善,业内专家预测,这将为社交网络、在线教育、虚拟现实等多个行业带来颠覆性的变化。可以预见,Soul 的努力将为未来的数字交互体验设定新的标杆,让我们拭目以待。
划重点:
🌟 Soul AI Lab 推出14B 参数的实时数字人生成模型 SoulXFlashTalk,具备快速响应能力和高帧率。
🚀 开源带来项目页面、技术报告、源代码及模型权重,降低研发门槛,鼓励更多创新。
🤝 Soul 将继续推进开源战略,推动 AI 与社交创新发展,构建多模态 AI 生态。
via AI新闻资讯 (author: AI Base)