跳到主要内容

环境准备

注意

安装前请仔细阅读,当前安装版本为专业版时,请跳过安装显卡驱动步骤,每台节点都需要完成以下所有环境准备的步骤,安装完成后自行做好服务器快照以方便进行快速恢复。

系统要求

请在部署前,使用相关命令确认服务器搭载系统版本。命令格式如下:

lsb_release -a
说明
  • No LSB modules are available.
  • Distributor ID: 「Ubuntu」
  • Description: 「Ubuntu 20.04.6 LTS」
  • Release: 「20.04」
  • Codename: 「focal」
    注意:若您的版本与说明存在差异,强行安装可能引发程序崩溃、服务中断等故障,为保障使用体验,强烈建议使用官方推荐版本。

安装显卡驱动

1. 关闭内核自动更新

说明
  • 若未禁用内核自动更新,系统重启后可能自动升级内核版本,导致当前内核与显卡驱动安装时依赖的内核版本不一致。
  • 这会造成显卡驱动不可用,影响硬件功能正常使用。
  • 为避免此类问题,建议在安装显卡驱动前,提前关闭系统的内核自动更新功能。

请使用相关命令打开配置文件 /etc/apt/apt.conf.d/10periodic,命令格式如下

vim /etc/apt/apt.conf.d/10periodic

在配置文件中添加相关内容,添加如下内容

APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Download-Upgradeable-Packages "0";
APT::Periodic::AutocleanInterval "0";

请使用相关命令打开 /etc/apt/apt.conf.d/20auto-upgrades 配置文件,命令格式如下

vim /etc/apt/apt.conf.d/20auto-upgrades

在配置文件中添加相关内容,添加如下内容

APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Unattended-Upgrade "0";

2. 关闭 nouveau 开源驱动

请使用相关命令打开配置文件 /etc/modprobe.d/blacklist-nouveau.conf,命令格式如下

vim /etc/modprobe.d/blacklist-nouveau.conf

在配置文件中添加以下内容以禁用 nouveau 驱动,添加内容如下

blacklist nouveau
options nouveau modeset=0

更新 initramfs 以应用配置更改,命令格式如下

update-initramfs -u

完成后重启服务器,命令格式如下

reboot

3. 检查驱动程序

查询驱动,命令格式如下

nvidia-smi

若查询结果如下,表示驱动已存在,则跳过步骤4和步骤5,直接执行 下载安装脚本

Thu May  8 07:01:39 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.144 Driver Version: 570.144 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3090 Off | 00000000:01:00.0 Off | N/A |
| 36% 31C P0 111W / 350W | 0MiB / 24576MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 3090 Off | 00000000:02:00.0 Off | N/A |
| 36% 31C P0 117W / 350W | 0MiB / 24576MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+

若查询无驱动,则继续执行步骤4和步骤5

4. 下载NVIDIA驱动程序

说明
  • 访问 NVIDIA 驱动下载页面
  • 根据显卡型号和操作系统版本选择对应的驱动程序并下载安装文件,示例如下。

① 输入显卡型号,手动搜索驱动。(以「 GeForce RTX 40 Series | NVIDIA GeForce RTX 4070 Ti | Linux 64-bit 」为例)

显卡驱动-搜索 显卡驱动-搜索

② 点击「 查找 」,查看驱动下载类型

显卡驱动-搜索

③ 选择「 推荐驱动/认证驱动 」类型,点击「 查看 」,查看驱动详情

显卡驱动-搜索

④ 点击「 下载 」,下载对应的驱动程序,并上传到服务器

5. 安装驱动程序

说明

以下NVIDIA-Linux-x86_64-570.144.run为示例文件,实际安装需要替换成实际驱动文件名称

赋予安装文件执行权限,命令格式如下

chmod +x NVIDIA-Linux-x86_64-570.144.run

运行安装程序,跳过 X Server 检查并不安装 OpenGL 文件(如适用),命令格式如下

./NVIDIA-Linux-x86_64-570.144.run -no-x-check -no-opengl-files

命令执行结果如下,选择 「 NVIDIA Proprietary 」,并点击

显卡驱动-搜索

点击后,如若遇到下图所示结果,则使用相关命令执行安装程序;如若未遇到,则跳过此步骤

显卡驱动-搜索

执行以下命令安装工具

apt update
apt install make gcc -y

再次运行安装程序

./NVIDIA-Linux-x86_64-570.144.run -no-x-check -no-opengl-files

安装完成后重新执行以下命令检查驱动

nvidia-smi

下载安装脚本

说明

「 客户ID 」需要替换为您实际的信息,ID获取详见控制台-基本资料

请使用相关命令在当前节点下载安装脚本,命令格式如下:

1.专业版

管理节点

wget -O install_manager.sh  https://cluster.aigate.cc/backend-api/admin/deploy/env/professional/manager/install/<客户ID> && chmod +x install_manager.sh

存储节点

wget -O install_storage.sh  https://cluster.aigate.cc/backend-api/admin/deploy/env/professional/storage/install/<客户ID> && chmod +x install_storage.sh

计算节点

下载免费版/标准版安装脚本

2.免费版/标准版

wget -O install.sh  https://cluster.aigate.cc/backend-api/admin/deploy/env/install/<客户ID> && chmod +x install.sh

执行脚本

执行下载的脚本,当您看到相关日志时,恭喜您,说明安装已经完成,日志示例如下

[2025-04-07 01:46:41] Installation completed successfully
[2025-04-07 01:46:41] WARNING: System will reboot in 1 minute. Use 'shutdown -c' to cancel.
[2025-04-07 01:46:41] Executing: shutdown -r +1 'Reboot By InfraX'
Installation log has been saved to: /var/log/infra_install_20250407_014609.log
说明

WARNING: System will reboot in 1 minute. Use 'shutdown -c' to cancel. 请等待服务器重启后执行后续操作.