CUDA学习之路[13]:Attention算子详解
市面上讲解Transformer架构的博客、视频、书籍实在是太多了,我不敢保证自己真的能够讲的比这些大牛都优秀,只能说尽量把我对于Transformer的全部理解都写在这一个系列博客中。
CUDA学习之路[11]:矩阵乘法计算详解
无论是卷积层、全连接层还是注意力计算,最终都会归因到矩阵运算。
无论是C语言还是CUDA亦或者是numpy、pytorch,都有一大堆针对矩阵运算来进行优化的库,这也是我们AI Infra真正意义上的起点,跟随着我的视角,我们来完整的体会一下是如何优化的。