在开始学习CUDA之前，环境配置是所有入门者的一大门槛。

在构建开发环境之前，我们需要理清几个核心组件的关系与定位：

核心组件定位

Nvidia显卡驱动：安装在操作系统层面，全局唯一。
CUDA Toolkit：安装在全局路径，可能有多个版本，需要切换。
Pytorch/TensorFlow：安装在隔离的虚拟环境中，提供高层API。
CUDA Runtime：随框架自动部署在虚拟环境中，无需手动单独配置。

操作系统版本

未来所有的实验我都会在Ubuntu24.04上进行，如果操作系统不一致的同学，可以自行修改其中的某些命令

Nvidia驱动配置#

打开终端，检查显卡是否被识别：

使用Ubuntu自带的驱动来进行安装。

更新软件源列表：

1
sudo apt update

让系统自动推荐并安装最合适的驱动：

1
sudo ubuntu-drivers devices

安装必要的依赖包

1
sudo apt install -y alsa-utils
2
sudo apt install -y pciutils ubuntu-drivers-common

安装推荐的Nvidia驱动

1
sudo apt install nvidia-driver-580-open

重启设备并验证安装

1
sudo reboot
2

3
## 验证是否安装成功
4
nvidia-smi

如果一切正常，你会看到类似的输出：主要显示驱动版本和GPU信息：

CUDA工具套件配置#

安装驱动#

访问CUDA Toolkit Archive 选择一个稳定的版本，其中使用最多的为CUDA 11.8或者CUDA 12.6，目前最新的为13.2，为了演示，我安装13.2的最新版本，但是由于我的驱动是580，会不兼容，仅做演示。

找到对应的版本后，选择相对应的套件：

1
# 一定要找到对应的runfile，在nvidia官方网站去拷贝
2
wget https://developer.download.nvidia.com/compute/cuda/13.2.0/local_installers/cuda_13.2.0_595.45.04_linux.run
3

4
sudo sh cuda_13.2.0_595.45.04_linux.run

重点避坑操作！！

选择continue继续安装；
按回车键取消勾选驱动安装，因为我们已经装过驱动了
不要设置软连接，选择No

如果安装成功，你可以在/usr/local/路径下看到对应的版本：

我们直接使用绝对路径分别查看一下对应的nvcc版本：

到此为止我们已经成功安装了，但是如果我们直接输入nvcc --version，会发现环境还是没有切换。

因此我们需要在~/.bashrc或者~/.zshrc中告诉系统应该使用哪一个版本的CUDA：

1
vim ~/.zshrc
2
# 或者是bashrc

如果你之前已经安装过一个版本的CUDA，则直接找到对应的两行：

找到之后修改cuda版本号：

按:wq，保存vim并退出。

重新更新环境变量：

1
source ~/.zshrc

Toolkit安装成功。

如果以后要版本切换，只需要改bashrc的两行版本号即可，前提是你多下载几个版本。

实际上580最高只支持13，我安装13.2会报错

到此为止已经可以写纯CUDA程序了

编写第一个CUDA程序#

我们写一个最基础的CUDA向量加法程序，利用GPU并行计算两个浮点数组的和，主要包括：

分配内存、数据传输、启动核函数、同步、传回结果、验证、释放资源这几个主要步骤。

1
#include <iostream>
2
#include <cuda_runtime.h>
3

4
// CUDA 核函数
5
__global__ void vectorAdd(const float* A, const float* B, float* C, int n) {
6
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
7
    if (idx < n) {
8
        C[idx] = A[idx] + B[idx];
9
    }
10
}
11

12
// 错误检查宏
13
#define CUDA_CHECK(call) \
14
    do { \
15
        cudaError_t err = call; \
16
        if (err != cudaSuccess) { \
17
            std::cerr << "CUDA 错误：" << cudaGetErrorString(err) \
18
                      << " 在 " << __FILE__ << ":" << __LINE__ << std::endl; \
19
            exit(1); \
20
        } \
21
    } while(0)
22

23
int main() {
24
    // 1. 检查设备
25
    int deviceCount;
26
    CUDA_CHECK(cudaGetDeviceCount(&deviceCount));
27
    if (deviceCount == 0) {
28
        std::cerr << "没有找到支持 CUDA 的设备！" << std::endl;
29
        return 1;
30
    }
31
    std::cout << "找到 " << deviceCount << " 个 CUDA 设备" << std::endl;
32

33
    // 2. 数据大小
34
    int n = 1 << 20;
35
    size_t size = n * sizeof(float);
36

37
    // 3. 主机内存分配与初始化
38
    float* h_A = new float[n];
39
    float* h_B = new float[n];
40
    float* h_C = new float[n];
41

42
    for (int i = 0; i < n; ++i) {
43
        h_A[i] = static_cast<float>(i);
44
        h_B[i] = static_cast<float>(i * 2.0f);
45
    }
46

47
    // 4. 设备内存分配
48
    float *d_A, *d_B, *d_C;
49
    CUDA_CHECK(cudaMalloc(&d_A, size));
50
    CUDA_CHECK(cudaMalloc(&d_B, size));
51
    CUDA_CHECK(cudaMalloc(&d_C, size));
52

53
    // 5. 拷贝数据到设备
54
    CUDA_CHECK(cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice));
55
    CUDA_CHECK(cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice));
56

57
    // 6. 配置核函数
58
    int threadsPerBlock = 256;
59
    int blocksPerGrid = (n + threadsPerBlock - 1) / threadsPerBlock;
60

61
    // 7. 启动核函数
62
    vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, n);
63

64
    // 检查核函数启动错误
65
    CUDA_CHECK(cudaGetLastError());
66

67
    // 等待核函数完成
68
    CUDA_CHECK(cudaDeviceSynchronize());
69

70
    // 8. 拷贝结果回主机
71
    CUDA_CHECK(cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost));
72

73
    // 9. 输出前10个结果验证
74
    std::cout << "计算结果示例（前10个元素）：" << std::endl;
75
    for (int i = 0; i < 10 && i < n; ++i) {
76
        std::cout << "C[" << i << "] = " << h_C[i]
77
                  << " (期望 " << h_A[i] + h_B[i] << ")" << std::endl;
78
    }
79

80
    // 10. 释放内存
81
    CUDA_CHECK(cudaFree(d_A));
82
    CUDA_CHECK(cudaFree(d_B));
83
    CUDA_CHECK(cudaFree(d_C));
84
    delete[] h_A;
85
    delete[] h_B;
86
    delete[] h_C;
87

88
    return 0;
89
}

之后使用nvcc进行编译：

1
nvcc hello.cu -o hello
2
./hello

至此，CUDA的基础开发环境已经配置完成。

Pytorch和Triton配置#

包管理工具配置#

根据我先前提到的，关于Pytorch，一般来说都是要单独隔离的。

现在市面上有太多关于Conda的配置文章了，实际上Conda慢得要死，特别是安装Pytorch这种大库时，真的不知道是卡住了还是在加载。

而pip又没有环境隔离功能，因此我选择使用uv。

uv的解析和下载都非常直观，并且几乎没有环境冲突，我们可以全程使用uv pip来安装任何东西。

哦对！更令人可恶的是，conda还非常大！！！！ 它一个垃圾环境吃掉我电脑几十个G，把我的硬盘都塞满了。

话不多说，我们现在开始继续安装：

安装uv

1
curl -LsSf https://astral.sh/uv/install.sh | sh

同样，让它能够被系统识别：

1
source $HOME/.cargo/env

验证是否安装成功：

1
uv --version

如果有版本号输出，说明安装成功。

由于我们伟大的Great Firewall，我们不得不配置国内的镜像源。

1
export UV_INDEX_URL="https://pypi.tuna.tsinghua.edu.cn/simple"

或者配一个梯子更加省心，至于配梯子的教程，按下不表。

快速安装pytorch和Triton#

这里是uv最爽的一步，因为uv会自动处理cuda版本匹配。

先在你的项目目录下创建一个uv环境，然后激活它：

1
# 创建环境
2
uv venv --python=3.14
3
# 激活环境
4
source .venv/bin/activate

之后再终端前面会出现(项目名)的这种格式。

这表明我们成功激活环境。

之后安装Pytorch，uv有一个专门的参数，它非常智能，能够自动检测系统的CUDA版本并安装对应的Pytorch。

1
uv pip install torch torchvision torchaudio --torch-backend=auto

这一步实际上非常快，因为uv是并发下载的。

安装好pytorch之后，那么再安装Triton。

因为Triton已经发布在PyPI上了，直接装就行。

1
uv pip install triton

最终我们进入Python的交互模式，效果如下图所示：

每次新建项目时，只需创建并激活虚拟环境，即可通过 uv pip 安装所需的包。

Nvidia Docker配置#

如果你会使用Docker，并且linux命令操作比较熟悉，那可以考虑使用Nvidia Docker来做配置。

它是一个让容器能够直接使用宿主机GPU的工具，会自动挂在Nvidia驱动、设备文件和必要的库，让容器内部的应用无需再次安装驱动。

我没用过，感兴趣的可以试试 Nvidia Container Toolkit

音乐

音乐

Nvidia驱动配置#

CUDA工具套件配置#

安装驱动#

编写第一个CUDA程序#

Pytorch和Triton配置#

包管理工具配置#

快速安装pytorch和Triton#

Nvidia Docker配置#

文章分享

音乐

目录

音乐

音乐

CUDA学习之路1——速通环境配置

Nvidia驱动配置#

CUDA工具套件配置#

安装驱动#

编写第一个CUDA程序#

Pytorch和Triton配置#

包管理工具配置#

快速安装pytorch和Triton#

Nvidia Docker配置#

文章分享

音乐

目录