CUDA学习之路[12]:卷积计算详解
LeetGPU习题07:Norm系列代码实现
BN、LN、RMS的CUDA、Triton以及Pytorch实现
CUDA学习之路[11]:矩阵乘法计算详解
无论是卷积层、全连接层还是注意力计算,最终都会归因到矩阵运算(General Matrix Multiply)。 无论是C语言还是CUDA亦或者是numpy、pytorch,都有一大堆针对矩阵运算来进行优化的库,这也是我们AI Infra真正意义上的起点,跟随着我的视角,我们来完整的体会一下是如何优化的。
Cover Image of the Post
LeetGPU习题06:Norm系列详解
详细梳理Normalization方法的发展脉络、数学原理与设计动机,以及CUDA、Triton与Pytorch实现
Cover Image of the Post
CUDA学习之路[10]:扫描算法详解
Scan 又称为Prefix Sum,是并行计算中最基础也最重要的collective原语之一。
Cover Image of the Post
LeetGPU习题05:Softmax优化详解
详细总结Softmax的概念及其所有的优化版本(预计万字)
Cover Image of the Post
存算一体专栏[1]: 追哪些会/刊?
总结存算可以投的会
Awesome AI Infra
入门资料汇总
Cover Image of the Post
LeetGPU习题04:Reduce汇总
总结LeetGPU中所有和Reduce算子相关的内容
Cover Image of the Post
mytorch[0]:
Profile Image of the Author
杜子源
都是风景,幸会
公告
请狠狠地打赏我,打赏一次,爆更一篇!!
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
28
分类
8
标签
11
总字数
68,959
运行时长
0
最后活动
0 天前

目录