LeetGPU习题05:Softmax优化详解
详细总结Softmax的概念及其所有的优化版本(预计万字)
Cover Image of the Post
mytorch[0]:
LeetGPU习题04:Reduce汇总
总结LeetGPU中所有和Reduce算子相关的内容
Cover Image of the Post
Awesome AI Infra
入门资料汇总
Cover Image of the Post
存算一体专栏[1]: 追哪些会/刊?
总结存算可以投的会
CUDA学习之路[10]:CUB 归约的分层设计
学习Nvidia提供的CUB仓库,学会如何看懂代码
Cover Image of the Post
CUDA学习之路[9]:粗看规约Reduce算法
从串行求和到GPU并行规约,逐层剥开取模优化、访存优化、常量展开等优化技术。新手也能看懂的规约算法全景图。
Cover Image of the Post
CUDA学习之路[7]:详解oneflow的element_wise代码
从架构师的角度来拆解Oneflow的element wise算子设计。如何只用200行就解决访存瓶颈?
Cover Image of the Post
LeetGPU习题03:Color inversion
题目描述给定一张图像的 RGBA 数据,以一维数组形式存储。每个像素由四个 8 位无符号整数(unsigned char)组成,依次为 R(红)、G(绿)、B(蓝)、A(透明度)。颜色反转的规则:将每个像素的 R、G、B 分量用 255 减去原值,A 分量保持不变。数组 image 的长度为 width * height * 4,依次存放所有像素的 RGBA 值(左上角像素为前 4 个元素)。
Cover Image of the Post
LeetGPU习题02:Matrix Copy
实现一个程序,在 GPU 上将输入矩阵 A 中的 32 位浮点数按元素直接复制到输出矩阵 B。即对于所有有效下标 (i, j),满足 B[i][j] = A[i][j]。
Cover Image of the Post
Profile Image of the Author
杜子源
都是风景,幸会
公告
请狠狠地打赏我,打赏一次,爆更一篇!!
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
23
分类
8
标签
11
总字数
51,741
运行时长
0
最后活动
0 天前

目录