🤖GPT-5.2被指“无聊”?实测揭示其专业可靠性与市场定位OpenAI近期发布的GPT-5.2模型,尽管CEO奥特曼庆祝其首日消耗突破
万亿Token,却在社交媒体上遭遇用户“无聊”、“敷衍”的负面评价。然而,深度测试显示,这种“无聊”实则是其为提升专业可靠性所付出的代价,旨在应对Google Gemini 3等竞争对手的压力。
GPT-5.2核心改进与特性:*
可靠性优先: 牺牲部分创意自由,换取可预测的可靠行为。在长达
62分钟的复杂对话中,GPT-5.2仍能严格遵循指令,远超GPT-5.1的
47分钟。
*
成本效率: 尽管单位Token成本比5.1高出
1.4倍(输入每百万Token
1.75美元,输出每百万Token
14美元),但通过动态推理和蒸馏学习,单次任务成本降低,GPT-5.2 Pro在ARC-AGI-1任务上的效率提升约
390倍。
*
减少幻觉: 更倾向于承认“我不知道”,避免捏造信息,增强专业任务的准确性。
三大模型专业任务对比:*
SEO策略与数据分析: Claude Opus 4.5表现最佳,速度快,能一站式输出品牌化专业表格。GPT-5.2需引导,Gemini 3效果差。
*
PPT生成: GPT-5.2耗时
14分钟,但生成动态动画图表和详细路线图,功能性“史诗级”。Claude Opus 4.5速度快,品牌化好,但细节不如GPT-5.2。Gemini 3表现不佳。
*
编码能力: GPT-5.2耗时多
5-10分钟,但在功能性上略胜一筹,能生成完整订单和预约表单。Claude Opus 4.5速度快,支持发布实时网页。Gemini 3交互性差。
*
创意与视觉: 日常创意任务各模型表现相似。图像生成方面,Google Gemini(Nano Banana)表现出色,能生成清晰、设计精美的图形。G
(IT业界资讯)via
茶馆 - Telegram Channel