当一段文本的顺序被打乱时,人类仍然能理解其中的含义,这种能力被称之为 Typoglycemia (学界称之为 Transposed letter 效应)。
而大型语言模型与人眼读取屏幕像素不同,它们看到的"词"是一个个整数 token ID 序列,这些 ID 完全不同且无法识别。
东京大学的研究员发现,以 token 为分词单位的大型语言模型居然也拥有这种能力。更令人惊讶的是,即使是将每个单词的所有字母完全打乱,GPT-4 也表现出了几乎完美的重建能力,而这对于其它大型语言模型与人类来说都是艰难任务。
https://arxiv.org/abs/2311.18805
投稿:@TNSubmbot
频道:@TestFlightCN
via 🆕 科技新闻投稿📮 - Telegram Channel