可视化讲解GPT工作原理
3Blue1Brown 是一个非常受欢迎的 YouTube 频道,主要是用可视化方式展示高等数学/机器学习/深度学习等领域的复杂概念。
最近,3Blue1Brown 新开了一个系列,第一个视频讲解「GPT (Generative Pre-trained Transformer)」的工作原理,通过动画&可视化的方式帮助理解模型的运行机制,及其背后的数学原理。
看视频的过程中,你会深刻理解「语言模型是基于历史上下文来预测下一个词的出现概率」这句话的含义,并掌握由此拓展的深度学习神经网络原理、反向传播、Word Embeddings (词嵌入)、Softmax 等知识。
如果觉得上一条推荐的文章还有点抽象,那这个动画视频则可以带你完全搞懂 GPT 的运行原理啦!视频将近30分钟,搬运字幕处理得非常不错,快收藏和学习起来呀!