ChatGPT / AI新闻聚合

NirDiamant/agents-towards-production 该仓库提供端到端、以代码为主的教程，涵盖生产级生成式人工智能（GenAI）代理的各个层面，指导你从初始火花到大规模部署，采用经过验证的模式和可复用的蓝图，助力真实世界的上线应用。语言：Jupyter Notebook 标签：#agent #agent_framework #agents #ai_agents #genai #generative_ai #llm #llms #mlops #multi_agent #production…

16:51 · 2024年10月3日 · 周四

OpenAI 即将推出能自主执行任务「代理人」技术

OpenAI 计划于明年推出「代理人」（agents）技术，这种独立的人工智能型号能够在无需人为输入的情况下执行多项任务，预计很快就会在 ChatGPT 中使用。

在首届 OpenAI DevDay 活动中，执行长 Sam Altman 表示：「2025 年是代理人开始运作的时间。」OpenAI 还透过让语音助理自行拨打电话并订购草莓的方式，展示了代理人的潜在功能。

🗒 标签: #OpenAI #AI #agents
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot

via Yummy 😋 - Telegram Channel

14:05 · 2024年5月15日 · 周三

🌟 2024 年谷歌 I/O 开发者大会重要信息汇总 🌟

📌Gemini 1.5 Pro

- 支持百万级别的上下文信息，显著提升了翻译、编程和推理能力
- 通过 #Gemini Advanced 面向全球开发者和消费者发布，支持 35 种语言
- 内部测试版支持 200 万单位的上下文窗口，即将开放预览

📌Gemini 1.5 Flash

- 推出轻量化的模型，针对低延迟和低成本场景进行优化，可在 AI Studio 和 #Vertex AI 平台使用
- 专为高并发、高频次的应用而设计，例如自动摘要、聊天机器人、图像视频字幕提取、数据挖掘等

📌多模态能力与长上下文处理

- Gemini 拥有强大的多模态处理能力，可以集成并处理各种类型的输入，提供全面而综合的输出结果
- 其应用场景包括处理海量的文本、音频、视频以及代码库等

📌Gemini 高级版的更新与新功能

- Gemini 高级版中的 Gemini 1.5 Pro 可以同时处理高达 100 万个 token，能够并行分析多个大型文档，或对 100 封电子邮件进行总结提炼
- Gemini Live 带来了全新的交互体验，用户可以通过语音与 Gemini 进行自然流畅的对话
- Gemini 高级版可以整合来自 #Gmail、#Google 地图等多个信息源的数据，为用户量身打造个性化的行程和计划
- 用户还可以根据自身的特定需求，定制专属的 Gemini 版本——#Gems，提供诸如健身陪练、编程助手等服务
- 与更多 Google 应用实现无缝连接，包括日历、任务和笔记等，可以显著简化工作流程、提升效率和条理性

📌AI 赋能搜索新体验

- 全新 “AI 搜索摘要” 功能面向美国用户推出，提供更加智能、基于上下文的搜索体验
- 升级后的 #AI 搜索摘要可提供快速解答、规划建议和研究分析等能力
- 用户可按需调整 AI 搜索摘要，获取简明扼要或详尽全面的答复
- 支持对复杂查询进行多步推理分析
- 提供餐饮、旅行等多个领域的智能规划方案
- 依托 AI 生成条理清晰的结果页面，激发灵感、探索新想法
- 视频搜索让视觉查询和故障排查变得更加简单

📌Gemini 强化 Google #Workspace 办公套件

- Gemini 1.5 Pro 现已集成到 Gmail、文档、云端硬盘、幻灯片和表格，提供强大的推理和摘要功能
- Gmail 移动应用新增电子邮件摘要、智能回复、问答助手等实用功能，随时随地高效处理邮件
- 进一步拓展了 Gmail 和文档对西班牙语、葡萄牙语的支持
- #NotebookLM 新增从源材料生成个性化音频摘要的强大功能

📌AI Agents

- 研发 AI Agents，赋予其处理购物退货、整理个人信息等复杂任务的能力
- 这些 #Agents 能够在用户的监管下自主分析、规划并执行任务

📌Astra 计划

- 着眼打造一款通用型 AI 智能助理，实现实时对话交互，并能理解多模态信息

📌VideoFX、ImageFX 和 MusicFX

- #VideoFX：内置 Veo 模型，让用户可根据文字描述一键生成视频，目前面向美国用户提供私人预览
- #Veo 是一款先进的视频生成模型，能够根据详尽的文字描述，生成 1080p 高清视频，支持多种风格。VideoFX 已面向特定创作者开放 Veo 私人预览
- #ImageFX：新版新增多项图像编辑功能，并集成 Imagen 3 模型，可输出更高质量图像，现已支持全球 110 个国家/地区，覆盖 37 种语言
- #Imagen 3 是一款高质量文本转图像模型，可生成逼真、细节丰富的图像，大幅减少伪影。ImageFX 已面向特定创作者提供 Imagen 3 私人预览，该模型也将很快登陆 Vertex AI 平台
- #MusicFX 新增 DJ 模式，用户可轻松融合不同音乐风格和乐器，打造个性化混音
- Music AI Sandbox 由 Wyclef Jean、Justin Tranter、Marc Rebillet 等艺术家参与开发，可用于创作原创乐器音轨，并实现声音变换
- 以上工具生成的所有内容均已添加 #SynthID 数字水印

📌“询问照片”，让照片搜索更智能

- Google 相册推出 “询问照片” 新功能，由 Gemini 模型提供支持，用户可使用自然语言搜索个人照片库
- 帮助用户快速创建照片精选和个性化标题，轻松在社交媒体上分享
- Google 严格保护 Google 相册用户的数据隐私，承诺绝不将个人数据用于广告投放或外部 AI 训练，并采用业界领先的安全措施

📌LearnLM - 专为学习优化的全新模型

- #LearnLM 是一个全新的模型系列，在 Gemini 的基础上经过微调，专为学习而优化，同时融合了教育研究的最新成果
- 新工具 #Illuminate 可将研究论文转化为简短的音频对话，配以 AI 生成的语音
- Learn About 整合了优质内容、学习科学和聊天体验，为用户提供个性化的学习指导服务

📌Gemini 强势登陆 Android 平台

- Gemini 模型已整合到 #Android 系统，其中就包括设备端的轻量版 Gemini Nano，具备多模态能力，可显著提升用户体验
- Circle to Search 等功能为学生完成家庭作业提供了清晰的分步指导
- Gemini 叠加层支持跨应用拖放 AI 生成的内容，并能更深入地理解上下文
- 改进了诈骗检测警报和 #TalkBack，提供更清晰的描述信息
- 完整的多模态 Gemini Nano 即将登陆 Android，首批适配设备为 #Pixel 系列

📌#Trillium 处理器迎来重大升级

- 宣布推出第六代 #TPU，将在 AI 模型的训练和部署上带来显著的性能提升

📌Gemini API 和开发者工具更新

- Gemini API 新增视频帧提取和并行函数调用，6 月还将支持上下文缓存
- 发布 #PaliGemma，可用于图像字幕和视觉问答；同时推出采用 27B 参数模型的 #Gemma 2，可在 GPU 或单个 TPU 上实现高效运行

📌负责任地发展人工智能

- 利用人工智能辅助红队测试，以改进模型性能
- 扩展 SynthID 技术，支持对文本和视频内容进行水印
- 恪守人工智能开发原则，致力于相关研究，与专家和用户紧密合作，确保人工智能技术的安全、有益应用
- 携手教育机构和相关组织，共同开发负责任的人工智能应用

📌SynthID 水印技术全面升级

- SynthID 现已支持为 Gemini 应用和网页中的文本添加水印，同时可为 Veo 视频添加水印
- 巧妙地将水印无缝嵌入文本生成过程，既不影响生成内容的质量，也不会降低生成速度
- 计划开源 SynthID 文本水印技术，助力开发者将其集成到自有模型中

📌人工智能助力攻克现实世界难题

- 人工智能的日新月异，正在助力解决现实世界的难题，推动科学领域取得重大突破，如实现人类大脑皮层的突触级分辨率 3D 重建、利用 #AlphaFold 3 精准预测生物结构，还有 Med-Gemini 在医学领域的广泛应用
- 人工智能技术还成功应用于洪水预报，以及支持联合国可持续发展目标的数据共享平台建设

https://blog.google/technology/developers/google-io-2024-collection/

📢关注频道：@cloud_native_share
💬加入群聊：@cloudnativer
📮欢迎投稿：@cloud_native_yang
🎁访问主页： icloudnative.io

blog.google

I/O 2024

Here’s a look at everything we announced at Google I/O 2024.