月之暗面:很早就验证过长思维链,因成本高不够重视
月之暗面研究员Flood Sung表示,OpenAI o1发布后,长思维链(推理模型的关键技术)的有效性让月之暗面重新思考。长思维链的有效性早在一年多前已被月之暗面验证,但当时未得到足够重视,主要因成本和速度问题。
他指出,长上下文技术主要解决长文本输入问题,而长思维链涉及长文本输出,成本更高、速度更慢。然而,性能提升才是关键,成本和速度可通过技术进步解决。因此,团队决定专注于长思维链技术。
他还提到,训练过程中发现模型性能提升会伴随token数增加,这与友商Deepseek的发现一致。
动点科技
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
via 科技圈🎗在花频道📮 - Telegram Channel
月之暗面研究员Flood Sung表示,OpenAI o1发布后,长思维链(推理模型的关键技术)的有效性让月之暗面重新思考。长思维链的有效性早在一年多前已被月之暗面验证,但当时未得到足够重视,主要因成本和速度问题。
他指出,长上下文技术主要解决长文本输入问题,而长思维链涉及长文本输出,成本更高、速度更慢。然而,性能提升才是关键,成本和速度可通过技术进步解决。因此,团队决定专注于长思维链技术。
他还提到,训练过程中发现模型性能提升会伴随token数增加,这与友商Deepseek的发现一致。
动点科技
📮投稿 ☘️频道 🌸聊天 🗞️𝕏
via 科技圈🎗在花频道📮 - Telegram Channel