MiniMax修复M2系列模型低频词元退化问题
MiniMax披露其M2系列大模型因后训练阶段低频词元退化导致人名生成异常,如“马嘉祺”被错误输出。问题源于分词器将低频词元(如“嘉祺”)拆分后训练不足,被高频词元向量挤压,引发4.9%词元性能衰退,其中日文词元退化率达29.7%,甚至出现日语对话混入俄语现象。团队通过全词表合成数据、混入预训练语料及词表监控三项策略修复,使异语混入率从47%降至1%,显著提升模型稳定性。
相关文章:
● MiniMax 大模型“叫错人名” 稀宇科技:特定词元后训练不足导致 - AI新闻资讯
● 大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相 - AI新闻资讯
via Infinitum 资讯聚合
MiniMax披露其M2系列大模型因后训练阶段低频词元退化导致人名生成异常,如“马嘉祺”被错误输出。问题源于分词器将低频词元(如“嘉祺”)拆分后训练不足,被高频词元向量挤压,引发4.9%词元性能衰退,其中日文词元退化率达29.7%,甚至出现日语对话混入俄语现象。团队通过全词表合成数据、混入预训练语料及词表监控三项策略修复,使异语混入率从47%降至1%,显著提升模型稳定性。
相关文章:
● MiniMax 大模型“叫错人名” 稀宇科技:特定词元后训练不足导致 - AI新闻资讯
● 大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相 - AI新闻资讯
via Infinitum 资讯聚合