更新中

在 LeetGPU 的习题列表中，Element-wise 算子指的是对输入张量/数组的每个元素独立执行相同操作、不依赖于其他元素或全局统计量的算子。

以下是明确的 Element-wise 算子：

算子说明#

名称	说明
Vector Addition	两个向量逐元素相加
Matrix Addition	两个矩阵逐元素相加
Matrix Copy	逐元素复制矩阵
Color Inversion	对每个像素独立取反
Reverse Array	反转数组，每个元素独立移动位置
ReLU	逐元素应用 ReLU 函数
Leaky ReLU	逐元素应用 Leaky ReLU
Sigmoid Activation	逐元素应用 Sigmoid 函数
Value Clipping	逐元素裁剪到指定范围
Sigmoid Linear Unit (SiLU)	逐元素 SiLU 激活
Swish-Gated Linear Unit (SWiGLU)	逐元素 SWiGLU（门控部分也为逐元素）
Gaussian Error Gated Linear Unit (GEGLU)	逐元素 GEGLU 激活
RGB to Grayscale	每个像素独立转换，不依赖邻域
Interleave Arrays	交替合并两数组，每个输出元素仅依赖对应位置输入
Rotary Positional Embedding	对每个位置独立应用旋转矩阵
Weight Dequantization	每个权重独立反量化
INT8 Quantized MatMul（仅反量化部分）	反量化部分为逐元素，整体不是
Simple Inference	线性层前向包含矩阵乘，非 element-wise，但其中的激活部分可能是逐元素

Vector Addition#

已讲解

CUDA学习之路：Element Wise详解

1. Matrix Addition题目#

实现一个在 GPU 上对两个包含 32 位浮点数的矩阵进行逐元素相加的程序。程序接收两个相同维度的输入矩阵，输出一个矩阵，其中的每个元素为对应位置元素之和。

示例 1：

1
输入：
2
A = [[1.0, 2.0],
3
     [3.0, 4.0]]
4
B = [[5.0, 6.0],
5
     [7.0, 8.0]]
6

7
输出：
8
C = [[6.0, 8.0],
9
     [10.0, 12.0]]

示例 2：

1
输入：
2
A = [[1.5, 2.5, 3.5],
3
     [4.5, 5.5, 6.5],
4
     [7.5, 8.5, 9.5]]
5
B = [[0.5, 0.5, 0.5],
6
     [0.5, 0.5, 0.5],
7
     [0.5, 0.5, 0.5]]
8

9
输出：
10
C = [[2.0, 3.0, 4.0],
11
     [5.0, 6.0, 7.0],
12
     [8.0, 9.0, 10.0]]

约束条件

输入矩阵 A 和 B 维度相同
1 ≤ N ≤ 4096
所有元素均为 32 位浮点数
性能评测基于 N = 4,096

2. Pytorch题解#

1
import torch
2
# A, B, C are tensors on the GPU
3
def solve(A: torch.Tensor, B: torch.Tensor, C: torch.Tensor, N: int):
4
    C.copy_(A + B)

3. Triton题解#

这里应该如何优化呢？参考向量化、二维化

3.1. 向量化如何计算offset？#

1
block_start = pid * BLOCK_SIZE * VEC_WIDTH
2

3
offsets = block_start + tl.arange(0, BLOCK_SIZE)[:, None] * VEC_WIDTH + tl.arange(0, VEC_WIDTH)[None, :]
4
offsets = tl.reshape(offsets, (BLOCK_SIZE * VEC_WIDTH,))

先来看一个例子，假设 BLOCK_SIZE=4，VEC_WIDTH=2，pid=0（起始 0）：

tl.arange(0,4)[:,None]*2 → 列向量 [[0], [2], [4], [6]]
tl.arange(0,2)[None,:] → 行向量 [[0, 1]]

广播相加得到：

1
[[0, 1],
2
 [2, 3],
3
 [4, 5],
4
 [6, 7]]

展平后得到 [0, 1, 2, 3, 4, 5, 6, 7]。这正好是线程块 0 要处理的前 8 个元素的连续索引。

计算详解

block_start就是一次性要处理BLOCK_SIZE * VEC_WIDTH个元素，再乘以当前的pid。

之后构造每一个线程的偏移量数组：

1
tl.arange(0, BLOCK_SIZE) # shape:(1, BLOCK_SIZE)
2
tl.arange(0, BLOCK_SIZE)[:, None] # 转置: (BLOCK_SIZE, 1)
3
tl.arange(0, BLOCK_SIZE)[:, None] * VEC_WIDTH # 每个线程本身负责的第一个元素的偏移量

例如：VEC_WIDTH=4时，tid=0得到下标0，tid=1得到下标4，tid=2得到下标8等等。

在上述处理之后，我们还需要处理内部的元素：

1
+ tl.arange(0, VEC_WITDH) # shape(1, VEC_WIDTH)
2
+ tl.arange(0, VEC_WIDTH)[None, :] # 行向量 (1, VEC_WIDTH)

最终得到一个形状为(BLOCK_SIZE, VEC_WIDTH)的二维数组，每一行是一个线程，每一列是单个线程要处理的连续偏移。

例如tid=1 & VEC_WIDTH=4 该行的内容为[4,5,6,7]

1
offsets = block_start + tl.arange(0, BLOCK_SIZE)[:, None] * VEC_WIDTH + tl.arange(0, VEC_WIDTH)[None, :]

在计算完向量化的坐标之后，我们再将其变为一维数组：

1
offsets = tl.reshape(offsets, (BLOCK_SIZE * VEC_WIDTH,))

3.2. 二维块指针构造#

实际上，在处理天然具有二维结构的数据时，并且并行算法也是二维划分时，选择二维线程块是一个自然的选择。

典型场景

矩阵运算、图像处理、卷积池化等。

在这些场景下，代码会更加直观，可以直接对应数据块的行列位置，并且无需进行重新转换ID，并且可以调整并行度以适应不同的硬件架构和数据模型。

当访存模式非常复杂时，就不太适合转换为1维操作来实现。

1
a_block_ptr = tl.make_block_ptr(
2
    base=a_ptr,                     # 内存基地址
3
    shape=(N, N),                   # 完整数据的形状
4
    strides=(N, 1),                 # 行步长、列步长
5
    offsets=(pid_m * BLOCK_M, pid_n * BLOCK_N),  # 当前块的起始坐标
6
    block_shape=(BLOCK_M, BLOCK_N), # 要加载的块大小
7
    order=(1, 0)                    # 线程映射顺序
8
)

假设我们有一个4*4的矩阵A，在GPU以行优先存储，内存布局如下：

3.3. 完整的三种方法对比#

1
import torch
2
import triton
3
import triton.language as tl
4
import time
5
import numpy as np
6

7
# ------------------------------------------------------------
8
# 方案 1：直接加法
9
# ------------------------------------------------------------
10
@triton.jit
11
def matrix_add_kernel(a, b, c, n_elements, BLOCK_SIZE: tl.constexpr):
12
    pid = tl.program_id(axis=0)
13

14
    block_start = pid * BLOCK_SIZE
15
    offsets = block_start + tl.arange(0, BLOCK_SIZE)
16
    mask = offsets < n_elements
17

18
    ga = tl.load(a + offsets, mask=mask)
19
    gb = tl.load(b + offsets, mask=mask)
20
    gc = ga + gb
21
    tl.store(c + offsets, gc, mask=mask)
22

23
def solve_triton_naive(a: torch.Tensor, b: torch.Tensor, c: torch.Tensor, N: int):
24
    BLOCK_SIZE = 1024
25
    n_elements = N * N
26
    grid = (triton.cdiv(n_elements, BLOCK_SIZE),)
27
    matrix_add_kernel[grid](a, b, c, n_elements, BLOCK_SIZE)
28

29

30
# ------------------------------------------------------------
31
# 方案 2：Triton 一维向量化 + Autotune
32
# ------------------------------------------------------------
33
@triton.autotune(
34
    configs=[
35
        triton.Config({'BLOCK_SIZE': 1024, 'VEC_WIDTH': 1}, num_warps=4),
36
        triton.Config({'BLOCK_SIZE': 1024, 'VEC_WIDTH': 2}, num_warps=4),
37
        triton.Config({'BLOCK_SIZE': 2048, 'VEC_WIDTH': 2}, num_warps=8),
38
        triton.Config({'BLOCK_SIZE': 4096, 'VEC_WIDTH': 4}, num_warps=8),
39
        triton.Config({'BLOCK_SIZE': 4096, 'VEC_WIDTH': 8}, num_warps=16),
40
    ],
41
    key=['n_elements'],
42
)
43
@triton.jit
44
def matrix_add_kernel_1d(
45
    a_ptr, b_ptr, c_ptr,
46
    n_elements: tl.constexpr,
47
    BLOCK_SIZE: tl.constexpr,
48
    VEC_WIDTH: tl.constexpr,
49
):
50
    pid = tl.program_id(axis=0)
51
    block_start = pid * BLOCK_SIZE * VEC_WIDTH
52

53
    offsets = block_start + tl.arange(0, BLOCK_SIZE)[:, None] * VEC_WIDTH + tl.arange(0, VEC_WIDTH)[None, :]
54
    offsets = tl.reshape(offsets, (BLOCK_SIZE * VEC_WIDTH,))
55

56
    mask = offsets < n_elements
57

58
    a_vals = tl.load(a_ptr + offsets, mask=mask, other=0.0)
59
    b_vals = tl.load(b_ptr + offsets, mask=mask, other=0.0)
60
    c_vals = a_vals + b_vals
61

62
    tl.store(c_ptr + offsets, c_vals, mask=mask)
63

64
def solve_triton_1d(A: torch.Tensor, B: torch.Tensor, C: torch.Tensor, N: int):
65
    n_elements = N * N
66
    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE'] * meta['VEC_WIDTH']),)
67
    matrix_add_kernel_1d[grid](A, B, C, n_elements)
68

69
# ------------------------------------------------------------
70
# 方案 3：Triton 二维块指针 + Autotune
71
# ------------------------------------------------------------
72
@triton.autotune(
73
    configs=[
74
        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 128}, num_warps=4),
75
        triton.Config({'BLOCK_M': 128, 'BLOCK_N': 256}, num_warps=4),
76
        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 128}, num_warps=8),
77
        triton.Config({'BLOCK_M': 256, 'BLOCK_N': 256}, num_warps=8),
78
        triton.Config({'BLOCK_M': 512, 'BLOCK_N': 128}, num_warps=8),
79
        triton.Config({'BLOCK_M': 512, 'BLOCK_N': 256}, num_warps=8),
80
    ],
81
    key=['N'],
82
)
83
@triton.jit
84
def matrix_add_kernel_2d(
85
    a_ptr, b_ptr, c_ptr,
86
    N,
87
    BLOCK_M: tl.constexpr,
88
    BLOCK_N: tl.constexpr,
89
):
90
    pid_m = tl.program_id(axis=0)
91
    pid_n = tl.program_id(axis=1)
92

93
    a_block_ptr = tl.make_block_ptr(
94
        base=a_ptr,
95
        shape=(N, N),
96
        strides=(N, 1),
97
        offsets=(pid_m * BLOCK_M, pid_n * BLOCK_N),
98
        block_shape=(BLOCK_M, BLOCK_N),
99
        order=(1, 0),
100
    )
101
    b_block_ptr = tl.make_block_ptr(
102
        base=b_ptr,
103
        shape=(N, N),
104
        strides=(N, 1),
105
        offsets=(pid_m * BLOCK_M, pid_n * BLOCK_N),
106
        block_shape=(BLOCK_M, BLOCK_N),
107
        order=(1, 0),
108
    )
109
    c_block_ptr = tl.make_block_ptr(
110
        base=c_ptr,
111
        shape=(N, N),
112
        strides=(N, 1),
113
        offsets=(pid_m * BLOCK_M, pid_n * BLOCK_N),
114
        block_shape=(BLOCK_M, BLOCK_N),
115
        order=(1, 0),
116
    )
117

118
    a = tl.load(a_block_ptr, boundary_check=(0, 1))
119
    b = tl.load(b_block_ptr, boundary_check=(0, 1))
120
    c = a + b
121
    tl.store(c_block_ptr, c, boundary_check=(0, 1))
122

123
def solve_triton_2d(A: torch.Tensor, B: torch.Tensor, C: torch.Tensor, N: int):
124
    grid = lambda meta: (
125
        triton.cdiv(N, meta['BLOCK_M']),
126
        triton.cdiv(N, meta['BLOCK_N']),
127
    )
128
    matrix_add_kernel_2d[grid](A, B, C, N)
129

130
# ------------------------------------------------------------
131
# 性能测试工具
132
# ------------------------------------------------------------
133
def benchmark(func, A, B, C, N, warmup=10, repeat=100):
134
    """
135
    运行指定函数多次，返回平均耗时（毫秒）。
136
    """
137
    # 预热
138
    for _ in range(warmup):
139
        func(A, B, C, N)
140
    torch.cuda.synchronize()
141

142
    # 计时
143
    start = time.perf_counter()
144
    for _ in range(repeat):
145
        func(A, B, C, N)
146
    torch.cuda.synchronize()
147
    end = time.perf_counter()
148

149
    avg_time_ms = (end - start) / repeat * 1000
150
    return avg_time_ms
151

152
def verify_results(C_triton_naive, C_triton_1d, C_triton_2d):
153
    """
154
    验证三种方案结果是否一致。
155
    """
156
    if torch.allclose(C_triton_naive, C_triton_1d, atol=1e-5):
157
        print("✅ PyTorch 与 Triton 1D 结果一致")
158
    else:
159
        print("❌ PyTorch 与 Triton 1D 结果不一致")
160

161
    if torch.allclose(C_triton_naive, C_triton_2d, atol=1e-5):
162
        print("✅ PyTorch 与 Triton 2D 结果一致")
163
    else:
164
        print("❌ PyTorch 与 Triton 2D 结果不一致")
165

166
def main():
167
    # 检查 CUDA 可用性
168
    if not torch.cuda.is_available():
169
        raise RuntimeError("CUDA 不可用，请在有 GPU 的环境下运行")
170
    device = torch.device("cuda")
171
    print(f"运行设备: {torch.cuda.get_device_name(device)}")
172

173
    # 问题规模
174
    N = 4096
175

176
    # 分配 GPU 张量
177
    A = torch.randn(N, N, device=device, dtype=torch.float32)
178
    B = torch.randn(N, N, device=device, dtype=torch.float32)
179
    C_triton_naive = torch.empty_like(A)
180
    C_triton_1d = torch.empty_like(A)
181
    C_triton_2d = torch.empty_like(A)
182

183
    print(f"\n矩阵大小: {N} x {N} ({N*N} 个元素)")
184

185
    # 验证正确性（单独运行一次）
186
    solve_triton_naive(A, B, C_triton_naive, N)
187
    solve_triton_1d(A, B, C_triton_1d, N)
188
    solve_triton_2d(A, B, C_triton_2d, N)
189
    verify_results(C_triton_naive, C_triton_1d, C_triton_2d)
190

191
    # 性能测试
192
    print("\n开始性能测试 (预热 10 次，计时 100 次取平均)...\n")
193

194
    time_pytorch = benchmark(solve_triton_naive, A, B, C_triton_naive, N)
195
    time_triton_1d = benchmark(solve_triton_1d, A, B, C_triton_1d, N)
196
    time_triton_2d = benchmark(solve_triton_2d, A, B, C_triton_2d, N)
197

198
    # 输出结果
199
    print(f"PyTorch 直接加法:      {time_pytorch:.4f} ms")
200
    print(f"Triton 1D 向量化:      {time_triton_1d:.4f} ms")
201
    print(f"Triton 2D 块指针:      {time_triton_2d:.4f} ms")
202

203
    # 计算加速比
204
    baseline = time_pytorch
205
    print(f"\n相对于 PyTorch 的加速比:")
206
    print(f"  Triton 1D: {baseline / time_triton_1d:.2f}x")
207
    print(f"  Triton 2D: {baseline / time_triton_2d:.2f}x")
208

209
    # 计算内存带宽
210
    bytes_per_element = 4  # float32
211
    total_bytes = 3 * N * N * bytes_per_element  # A读 + B读 + C写
212
    bw_pytorch = total_bytes / (time_pytorch / 1000) / 1e9
213
    bw_triton_1d = total_bytes / (time_triton_1d / 1000) / 1e9
214
    bw_triton_2d = total_bytes / (time_triton_2d / 1000) / 1e9
215

216
    print(f"\n估算内存带宽 (GB/s):")
217
    print(f"  PyTorch:  {bw_pytorch:.2f} GB/s")
218
    print(f"  Triton 1D: {bw_triton_1d:.2f} GB/s")
219
    print(f"  Triton 2D: {bw_triton_2d:.2f} GB/s")
220

221
if __name__ == "__main__":
222
    main()

音乐

音乐

算子说明#

Vector Addition#

1. Matrix Addition题目#

2. Pytorch题解#

3. Triton题解#

3.1. 向量化如何计算offset？#

3.2. 二维块指针构造#

3.3. 完整的三种方法对比#

支持与分享

音乐

目录

音乐

音乐

LeetGPU习题01：Matrix Addition

算子说明#

Vector Addition#

1. Matrix Addition题目#

2. Pytorch题解#

3. Triton题解#

3.1. 向量化如何计算offset？#

3.2. 二维块指针构造#

3.3. 完整的三种方法对比#

支持与分享

音乐

目录