本文还是来自Jay Mody,那篇被Andrej Karpathy手动点赞的GPT in 60 Lines of NumPy。
LLM大行其道,然而大多数GPT模型都像个黑盒子一般隐隐绰绰,甚至很多人都开始神秘化这个技术。我觉得直接跳进数学原理和代码里看看真实发生了什么,才是最有效的理解某项技术的方法。正如DeepMind的Julian Schrittwieser所说:
这些都是电脑程序。
这篇文章细致的讲解了GPT模型的核心组成及原理,并且用Numpy手搓了一个完整的实现(可以跑的那种),读起来真的神清气爽。项目代码也完全开源,叫做picoGPT(pico,果然是不能再小的GPT了)。
译文链接:60行NumPy手搓GPT
(已获原文作者授权)