47年前的6MHz电脑跑AI 纯汇编语言3.5分钟达成 100%准确率前Windows核心开发者Dave Plummer在一台47年前的PDP-11/44计算机上，成功运行了Transformer模型，用6MHz CPU和64KB内存完成了AI训练

47年前的6MHz电脑跑AI 纯汇编语言3.5分钟达成 100%准确率

前Windows核心开发者Dave Plummer在一台47年前的PDP-11/44计算机上，成功运行了Transformer模型，用6MHz CPU和64KB内存完成了AI训练。这台PDP-11运行的模型名为ATTN-11，由Damien Boureille用PDP-11汇编语言编写，实现一个单层、单头的 Transformer，仅包含1216个参数。

模型的任务看似简单，即输入一串数字，输出其反序结果，但要完成这一任务，模型必须自主学习到序列反转的结构规则，Plummer认为这恰恰抓住了ChatGPT等现代大模型的工作本质。

为了在极其有限的硬件上运行，ATTN-11做了大量极致优化，前向传播精度裁剪至8位定点数，每一个CPU周期都经过优化。

最终Plummer借助一块缓存板，在约350个训练步骤后让模型达到了100%准确率，整个过程耗时约3.5分钟。

Plummer在视频中这样描述训练过程：“模型一开始很蠢，损失值很高，然后在某个时刻，权重开始收敛，注意力机制发现了反转映射，机器跨过了那条从猜测到认知的无形界线。”

他的核心观点是：现代AI的本质并非什么神秘力量，而是“机器反复更新数千个加权连接的强度，使下一次答案比上一次稍微不那么错”。

Plummer最后指出，随着算力资源日益成为瓶颈，能够回归对效率和优化的极致追求的公司，将在未来的AI竞争中占据更大优势。

via cnBeta.COM - 中文业界资讯站 (author: 稿源：快科技)