🤖GPT-5.2被指“无聊”？实测揭示其专业可靠性与市场定位OpenAI近期发布的GPT-5.2模型，尽管CEO奥特曼庆祝其首日消耗突破万亿Token，却在社交媒体上遭遇用户“无聊”、“敷衍”的负面评价

🤖GPT-5.2被指“无聊”？实测揭示其专业可靠性与市场定位

OpenAI近期发布的GPT-5.2模型，尽管CEO奥特曼庆祝其首日消耗突破万亿Token，却在社交媒体上遭遇用户“无聊”、“敷衍”的负面评价。然而，深度测试显示，这种“无聊”实则是其为提升专业可靠性所付出的代价，旨在应对Google Gemini 3等竞争对手的压力。

GPT-5.2核心改进与特性：
* 可靠性优先： 牺牲部分创意自由，换取可预测的可靠行为。在长达62分钟的复杂对话中，GPT-5.2仍能严格遵循指令，远超GPT-5.1的47分钟。
* 成本效率： 尽管单位Token成本比5.1高出1.4倍（输入每百万Token 1.75美元，输出每百万Token 14美元），但通过动态推理和蒸馏学习，单次任务成本降低，GPT-5.2 Pro在ARC-AGI-1任务上的效率提升约390倍。
* 减少幻觉： 更倾向于承认“我不知道”，避免捏造信息，增强专业任务的准确性。

三大模型专业任务对比：
* SEO策略与数据分析： Claude Opus 4.5表现最佳，速度快，能一站式输出品牌化专业表格。GPT-5.2需引导，Gemini 3效果差。
* PPT生成： GPT-5.2耗时14分钟，但生成动态动画图表和详细路线图，功能性“史诗级”。Claude Opus 4.5速度快，品牌化好，但细节不如GPT-5.2。Gemini 3表现不佳。
* 编码能力： GPT-5.2耗时多5-10分钟，但在功能性上略胜一筹，能生成完整订单和预约表单。Claude Opus 4.5速度快，支持发布实时网页。Gemini 3交互性差。
* 创意与视觉： 日常创意任务各模型表现相似。图像生成方面，Google Gemini（Nano Banana）表现出色，能生成清晰、设计精美的图形。G

(IT业界资讯)

via 茶馆 - Telegram Channel