Attension 注意力机制学习笔记

第一次看见注意力机制的时候看得我一懵一懵的，看不懂说什么；第二次看见注意力机制的时候看懂了一点，但完全不知道为什么几个矩阵就相乘了；第三次我和AI还有各种资料打滚了一番，终于有了我自己的理解。

李沐的D2L中将注意力机制与核回归一起讲，我觉得是个可取的思路，在本文中我也会参考这个思路，从头开始讲如何理解注意力计算公式。

简单的想法：带着目的思考

“注意”让信息更有价值。

摆在你面前有很多篇文章，如果你没有带着某个目的，那么对你来说，这些文章的价值应该是一样的。

但倘若你有很强的倾向性例如「我要看科技文章」，那么带着这个目的去评估文章的价值，科技文章的价值应该因为这个目的而获得加成，有着比其他文章更高的价值。

注意力机制便是类似这样一个根据不同目的(或者说注意)进行加权的算法。

核回归

注意力机制的超级老祖先。

不过在讨论注意力之前，我们可以先看看统计学的东西——核回归。

我们知道，回归是在对自变量x和因变量f(x)建模，一种简单的回归办法是算平均值：公式中的和是数据集样本的值。

不过显然这个方法过于”简单“，不能很好的预测真实值。

算平均值还是不够聪明，一种更好的方法是用一个关于实测的的函数对实测的进行加权，然后再根据加权后的进行预估。

这里不会去讨论函数具体是什么样的，如果你感兴趣，可以看D2L。

重点在于，核回归通过已有和来对进行加权的思想。 在预测的时候将要预测的和已有的其他真实存在的样本以及其联系起来。

参数呢？

我们可以注意到，这个核回归是不带参数的，核回归实际上也是可以变为带参数的形式，也就是这样的形式，此处不做谈及，感兴趣可以看D2L。

注意力机制

讲完了简单的核回归，现在可以讲进一步的注意力机制了——其实就是矩阵化后的核回归。

先做一个最简单的注意力。前面的核回归并没有参数化，引入参数矩阵对其进行参数化，在训练过程中，会不断调整来学习。

问题：这个是我的学习笔记，评价笔记，检查错误，润色补充。

🪴 鸽子的图书馆

探索

Attension 注意力机制学习笔记

简单的想法：带着目的思考

核回归

注意力机制

AI 补充

修改历史

参考资料

目录

反向链接

最近的笔记

反思：我的小说

OOP 世界观

Cpp 生态一瞥

Javascript 生态一瞥

Python 生态一瞥

Trae 更换插件市场源

🪴 鸽子的图书馆

探索

Attension 注意力机制 学习笔记

简单的想法：带着目的思考

核回归

注意力机制

AI 补充

修改历史

参考资料

目录

反向链接

最近的笔记

反思：我的小说

OOP 世界观

Cpp 生态一瞥

Javascript 生态一瞥

Python 生态一瞥

Trae 更换插件市场源

Attension 注意力机制学习笔记