目录#

0.祛魅

1.速通环境配置

2.C++关键知识点复习

3.GPU并行本质 | 硬件架构 × 编程模型

4.CUDA全局坐标计算（本篇）

引言#

在上一篇中，我们理清了 GPU 的硬件架构与 CUDA 的线程模型：Grid → Block → Thread。

但很多同学一到写代码就卡住，最先卡住的就是算不对全局索引。

1
int i = blockIdx.x * blockDim.x + threadIdx.x;

本篇学习目标

彻底掌握一维、二维、三维全局索引的计算公式
理解 gridDim、blockDim 与启动配置之间的对应关系
学会根据数据形状选择合适的网格/块维度

思考题：假如你有一个 1000×1000 的图像要处理，你是开一个 1000×1000 的二维线程块，还是开一个一维的 1,000,000 线程？为什么？答案将在文中揭晓。

核心概念速查#

CUDA 为每个线程提供了四个内置变量，用于定位自己在整个任务中的位置：

变量	含义	维度范围
`threadIdx.x/y/z`	线程在块内的局部索引	`0` ~ `blockDim-1`
`blockIdx.x/y/z`	线程块在网格内的索引	`0` ~ `gridDim-1`
`blockDim.x/y/z`	每个块每维的线程数	由启动参数 `<<<..., threads>>>` 决定
`gridDim.x/y/z`	网格每维的块数	由启动参数 `<<<grid, ...>>>` 决定

全局索引的本质：跳过前面所有块的线程，再加上我在当前块内的偏移。

全局坐标计算方式#

无论数据是几维，内存中都是一维线性排布。全局坐标计算的核心任务，就是将多维逻辑索引映射为一维物理地址。

2. 一维坐标计算#

公式#

1
int global_id = blockIdx.x * blockDim.x + threadIdx.x;

图示#

blockIdx.x * blockDim.x：计算当前块之前一共有多少个线程（基地址）。
+ threadIdx.x：加上当前线程在块内的偏移。

边界保护#

1
if (global_id < N) {
2
    // 安全处理
3
}

为什么必须加这个判断？

答：网格覆盖的线程总数往往是块大小的整数倍，可能超过数据总量 N。不加判断会越界访问。

2.2 二维坐标计算#

二维数据（如图像）需要两个全局索引：row 和 col。

公式#

1
// 列方向，当前块之前的数量 * 每块宽度 + 当前块内的线程偏移
2
int col = blockIdx.x * blockDim.x + threadIdx.x;
3
// 行方向，当前块之前的数量 * 每块高度 + 当前块内的线程偏移
4
int row = blockIdx.y * blockDim.y + threadIdx.y;
5

6

7
// 我们只需要利用行优先规则转换
8
if (row < height && col < width) {
9
    int global_idx = row * width + col;            // 转为一维线性地址
10
}

图示#

RGB图像转灰度图#

我们来看一下如何使用CUDA来将彩色图片转为灰度图。

安装opencv

1
sudo apt update
2
sudo apt install libopencv-dev

在一个Kernel中，每个线程负责处理图像中的一个像素点，我们需要利用上述公式计算出每个像素的行和列。

1
// 输入图像在显存中是按 uchar3 (RGB三通道) 紧密排列的
2
__global__ void rgbToGray(const uchar3* d_img, unsigned char* d_gray, int width, int height) {
3
    // 计算全局列和行
4
    int x = blockIdx.x * blockDim.x + threadIdx.x;
5
    int y = blockIdx.y * blockDim.y + threadIdx.y;
6

7
    // 边界检查
8
    if (x < width && y < height) {
9
        // 二维转一维索引
10
        int idx = y * width + x;
11

12
        // 读取原始 RGB 像素
13
        uchar3 pixel = d_img[idx];
14

15
        // 计算灰度值 (固定加权公式)
16
        // Y = 0.299R + 0.587G + 0.114B
17
        unsigned char gray = static_cast<unsigned char>(0.299f * pixel.x + 0.587f * pixel.y + 0.114f * pixel.z);
18

19
        // 写回显存
20
        d_gray[idx] = gray;
21
    }
22
}

在主机端，我们根据图像实际尺寸来配置Grid和Block，确保能够覆盖所有的像素。

1
int main() {
2
    // ... 读取图像，获取 width 和 height ...
3

4
    // 定义线程块大小：16x16 是常见且高效的选择
5
    dim3 blockSize(16, 16); // dim3是CUDA中的数据结构
6

7
    // 计算网格大小：用图像尺寸除以块大小并向上取整
8
    // 公式：(N + M - 1) / M
9
    dim3 gridSize((width + blockSize.x - 1) / blockSize.x,
10
                  (height + blockSize.y - 1) / blockSize.y);
11

12
    // 启动 Kernel
13
    rgbToGray<<<gridSize, blockSize>>>(d_img, d_gray, width, height);
14

15
    // ... 后续同步与结果保存 ...
16
}

完整的代码如下：

1
#include <iostream>
2
#include <opencv2/opencv.hpp>
3
#include <cuda_runtime.h>
4
#include <string>
5

6
__global__ void rgbToGray(const uchar3* d_img, unsigned char* d_gray, int width, int height) {
7
    int x = blockIdx.x * blockDim.x + threadIdx.x;
8
    int y = blockIdx.y * blockDim.y + threadIdx.y;
9

10
    if (x < width && y < height) {
11
        int idx = y * width + x;
12
        uchar3 pixel = d_img[idx];
13
        // 使用加权平均法将RGB转换为灰度
14
        d_gray[idx] = static_cast<unsigned char>(0.299f * pixel.x + 0.587f * pixel.y + 0.114f * pixel.z);
15
    }
16
}
17

18
using namespace std;
19
int main() {
20
    string imagePath = "input.png";
21
    cv::Mat img = cv::imread(imagePath);
22

23
    // 检查图像是否加载成功
24
    if (img.empty()) {
25
        cerr << "无法加载图像: " << imagePath << endl;
26
        return -1;
27
    }
28

29
    int width = img.cols;
30
    int height = img.rows;
31
    int channels = img.channels();
32

33
    uchar* d_img;           // GPU上的原始图像数据
34
    unsigned char* d_gray;  // GPU上的灰度图像
35
    cout << "图像尺寸: " << width << "x" << height << ", 通道数: " << channels << endl;
36

37

38
    // 定义CUDA内核的块和网格大小
39
    dim3 blockSize(1, 256);
40
    const int iterations = 10000;
41

42
    size_t imgSize = width * height * sizeof(uchar3);
43
    size_t graySize = width * height * sizeof(unsigned char);
44

45
    // 在GPU上分配内存
46
    cudaMalloc(&d_img, imgSize);
47
    cudaMalloc(&d_gray, graySize);
48

49
    // 将图像数据从CPU复制到GPU
50
    cudaMemcpy(d_img, img.data, imgSize, cudaMemcpyHostToDevice);
51

52

53
    // 取上整除以确保覆盖所有像素
54
    dim3 gridSize((width + blockSize.x - 1) / blockSize.x, (height + blockSize.y - 1) / blockSize.y);
55

56

57
    // 启动CUDA内核进行RGB到灰度的转换
58
    rgbToGray<<<gridSize, blockSize>>>(reinterpret_cast<uchar3*>(d_img), d_gray, width, height);
59
    // 检查内核启动是否成功
60
    cudaGetLastError();
61
    // 同步
62
    cudaDeviceSynchronize();
63

64

65
    // 测试时间
66
    cudaEvent_t start, stop;
67
    float total_time = 0.0f;
68

69
    cudaEventCreate(&start);
70
    cudaEventCreate(&stop);
71
    cout << "正在测试GPU性能..." << endl;
72

73
    for (int i = 0; i < iterations; i++) {
74
        cudaEventRecord(start);
75
        rgbToGray<<<gridSize, blockSize>>>(reinterpret_cast<uchar3*>(d_img), d_gray, width, height);
76
        cudaEventRecord(stop);
77
        cudaEventSynchronize(stop);
78

79
        float single_time = 0.0f;
80
        cudaEventElapsedTime(&single_time, start, stop);
81
        total_time += single_time;
82
    }
83

84
    float avg_time = total_time / iterations;
85
    cout << "平均每次转换时间: " << avg_time << " ms" << endl;
86

87

88

89
    // 将结果从GPU复制回CPU
90
    cv::Mat grayImg(height, width, CV_8UC1);
91
    cudaMemcpy(grayImg.data, d_gray, graySize, cudaMemcpyDeviceToHost);
92
    // 保存灰度图像
93
    cv::imwrite("output.png", grayImg);
94
    // 释放GPU内存
95
    cudaFree(d_img);
96
    cudaFree(d_gray);
97

98

99
    return 0;
100
}

2.3 三维坐标计算#

假设有一个 256 × 256 × 128 的CT图像（宽×高×深度），每个体素是一个16位整数。我们要用CUDA把它变成浮点数，并除以最大灰度值，得到归一化的3D数组。

图示#

内存布局#

我们同样把三维数据展平成一维数据。

1
int x = blockIdx.x * blockDim.x + threadIdx.x;
2
int y = blockIdx.y * blockDim.y + threadIdx.y;
3
int z = blockIdx.z * blockDim.z + threadIdx.z;
4

5
if (x < dimX && y < dimY && z < dimZ) {
6

7

8
    // 因为内存布局是行优先，而x是变化最快的，因此这种访问方式能够让线程访问连续的x，能够合并内存访问，性能较好。
9
    int global_idx = z * dimY * dimX + y * dimX + x;
10
}

三维块的硬件限制

CUDA 规定每个 Block 的总线程数不能超过 1024。三维块尺寸乘积必须 ≤ 1024，例如 8×8×8 = 512 合法，16×16×16 = 4096 非法。

核心的Kernel编写如下：

1
__global__ void normalizeVolume(const unsigned short* d_in,
2
                                float* d_out,
3
                                int dimX, int dimY, int dimZ,
4
                                float maxVal) {
5
    int x = blockIdx.x * blockDim.x + threadIdx.x;
6
    int y = blockIdx.y * blockDim.y + threadIdx.y;
7
    int z = blockIdx.z * blockDim.z + threadIdx.z;
8

9
    if (x < dimX && y < dimY && z < dimZ) {
10
        int idx = z * dimY * dimX + y * dimX + x;
11
        d_out[idx] = (float)d_in[idx] / maxVal;
12
    }
13
}

三、启动Kernel#

算出了索引，还得告诉GPU启动多少个线程，怎么分组？

这就是<<<gridDim, blockDim>>>的作用。

搞懂内置变量和类型#

CUDA内核函数__global__中可以直接使用以下内置变量，无需声明。

之前我们看到的threadIdx,blockIdx,blockDim,gridDim实际上它们的类型都是dim3。

dim3是CUDA内置的一个结构体，包含xyz三个无符号整数字段。

无论多少维度的公式，核心公式都是：

1
全局线程ID = blockIdx维度 * blockDim维度 + threadIdx维度

当数据是一维时，只需要算x即可；当二维或者三维，则需要对其进行拓展。

因此我们在启动Kernel的时候，需要对其进行配置。

1
/* 一维配置 */
2
int threadsPerBlock = 256;
3
// 向上取整
4
int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
5
kernel<<<blocksPerGrid, threadsPerBlock>>>(d_data, N);
6

7
/* 二维配置 */
8
dim3 blockSize(16, 16);          // 16×16 = 256 线程
9
dim3 gridSize( (width+15)/16, (height+15)/16 );
10
kernel<<<gridSize, blockSize>>>(d_image, width, height);
11

12

13
/* 三维配置 */
14
dim3 blockSize(8, 8, 4);        // 8×8×4 = 256 线程 ≤ 1024
15
dim3 gridSize( (dimX+7)/8, (dimY+7)/8, (dimZ+3)/4 );
16
kernel<<<gridSize, blockSize>>>(d_volume, dimX, dimY, dimZ);

关于dim3的易错点

没有赋值的维度默认为 1。例如 dim3 block(32, 32) → block.z = 1。
内核中访问 threadIdx.z 是安全的，但如果启动时没给 z 值（或给了1），它始终为 0。
用整数直接传给 <<<>>> 时，相当于只设置了 .x 分量。例如 kernel<<<10, 256>>> 等价于 gridDim.x=10, blockDim.x=256，其他维为1。

参数解释#

threadsPerBlock：每个 Block 的线程数，通常取 32 的整数倍（如 128、256、512），避免 Warp 资源浪费。
blocksPerGrid：向上取整确保覆盖全部数据。公式等价于 ceil(N / threadsPerBlock)。

为什么二维配置常用 16×16 或 32×8？

合并访问：x 维度的线程连续访问内存，性能最优。
Warp 对齐：32 个线程为一个 Warp，块尺寸最好是 Warp 大小的倍数。
共享内存：二维块切出的瓦片（tile）更规整，便于利用共享内存。

思考题：16×16 和 32×8 的块，哪个更适合处理 1024×1024 的图像？
提示：考虑合并访问和 Warp 利用率（32 个线程为一组）。32×8 的 x 维有 32 个线程，正好一个 Warp，合并访问效率最高。

四、一维、二维、三维的选择策略#

数据形状	推荐网格/块维度	理由
一维数组	一维	索引计算最简单，开销最小
二维图像/矩阵	二维块 + 二维网格	直观，便于二维 tile 划分，合并访问最优
三维体数据	三维块 + 三维网格	逻辑清晰，利于 3D 局部性
多层二维数据	二维网格 + 循环	用二维网格处理每层，代码复用性高

黄金法则：让 x 维度的线程连续访问连续的内存地址。
因为一个 Warp 内的 32 个线程是沿 x 维度连续的，合并访问是免费的性能提升。

小结#

一维索引：blockIdx.x * blockDim.x + threadIdx.x
二维索引：分开计算 row 和 col，注意行优先内存排布
三维索引：依次展开 z、y、x
配置原则：块尺寸取 32 的倍数，网格数量向上取整覆盖全部数据
选择依据：数据形状 + 内存合并访问

记住：CUDA 的坐标计算本质上就是“基地址 + 偏移量”的变体。
理解了这一点，任何维度的索引你都能自己推导出来。

参考文献#

知乎：CUDA全局坐标计算

知乎：CUDA线程模型与全局索引计算方式

NVIDIA CUDA编程指南（中文版）

音乐

目录#

引言#

核心概念速查#

全局坐标计算方式#

2. 一维坐标计算#

公式#

图示#

边界保护#

2.2 二维坐标计算#

公式#

图示#

RGB图像转灰度图#

2.3 三维坐标计算#

图示#

内存布局#

三、启动Kernel#

搞懂内置变量和类型#

参数解释#

四、一维、二维、三维的选择策略#

小结#

参考文献#

支持与分享

音乐

目录

音乐

CUDA学习之路[4]——CUDA全局坐标计算

目录#

引言#

核心概念速查#

全局坐标计算方式#

2. 一维坐标计算#

公式#

图示#

边界保护#

2.2 二维坐标计算#

公式#

图示#

RGB图像转灰度图#

2.3 三维坐标计算#

图示#

内存布局#

三、启动Kernel#

搞懂内置变量和类型#

参数解释#

四、一维、二维、三维的选择策略#

小结#

参考文献#

支持与分享

音乐

目录