🤖GPT-5.2被指“无聊”?实测揭示其专业可靠性与市场定位

OpenAI近期发布的GPT-5.2模型,尽管CEO奥特曼庆祝其首日消耗突破万亿Token,却在社交媒体上遭遇用户“无聊”、“敷衍”的负面评价。然而,深度测试显示,这种“无聊”实则是其为提升专业可靠性所付出的代价,旨在应对Google Gemini 3等竞争对手的压力。

GPT-5.2核心改进与特性:
* 可靠性优先: 牺牲部分创意自由,换取可预测的可靠行为。在长达62分钟的复杂对话中,GPT-5.2仍能严格遵循指令,远超GPT-5.1的47分钟
* 成本效率: 尽管单位Token成本比5.1高出1.4倍(输入每百万Token 1.75美元,输出每百万Token 14美元),但通过动态推理和蒸馏学习,单次任务成本降低,GPT-5.2 Pro在ARC-AGI-1任务上的效率提升约390倍
* 减少幻觉: 更倾向于承认“我不知道”,避免捏造信息,增强专业任务的准确性。

三大模型专业任务对比:
* SEO策略与数据分析: Claude Opus 4.5表现最佳,速度快,能一站式输出品牌化专业表格。GPT-5.2需引导,Gemini 3效果差。
* PPT生成: GPT-5.2耗时14分钟,但生成动态动画图表和详细路线图,功能性“史诗级”。Claude Opus 4.5速度快,品牌化好,但细节不如GPT-5.2。Gemini 3表现不佳。
* 编码能力: GPT-5.2耗时多5-10分钟,但在功能性上略胜一筹,能生成完整订单和预约表单。Claude Opus 4.5速度快,支持发布实时网页。Gemini 3交互性差。
* 创意与视觉: 日常创意任务各模型表现相似。图像生成方面,Google Gemini(Nano Banana)表现出色,能生成清晰、设计精美的图形。G

(IT业界资讯)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]