环境准备
注意
安装前请仔细阅读,当前安装版本为专业版时,请跳过安装显卡驱动步骤,每台节点都需要完成以下所有环境准备的步骤,安装完成后自行做好服务器快照以方便进行快速恢复。
系统要求
请在部署前,使用相关命令确认服务器搭载系统版本。命令格式如下:
lsb_release -a
说明
- No LSB modules are available.
- Distributor ID: 「Ubuntu」
- Description: 「Ubuntu 20.04.6 LTS」
- Release: 「20.04」
- Codename: 「focal」
注意:若您的版本与说明存在差异,强行安装可能引发程序崩溃、服务中断等故障,为保障使用体验,强烈建议使用官方推荐版本。
安装显卡驱动
1. 关闭内核自动更新
说明
- 若未禁用内核自动更新,系统重启后可能自动升级内核版本,导致当前内核与显卡驱动安装时依赖的内核版本不一致。
- 这会造成显卡驱动不可用,影响硬件功能正常使用。
- 为避免此类问题,建议在安装显卡驱动前,提前关闭系统的内核自动更新功能。
请使用相关命令打开配置文件 /etc/apt/apt.conf.d/10periodic
,命令格式如下
vim /etc/apt/apt.conf.d/10periodic
在配置文件中添加相关内容,添加如下内容
APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Download-Upgradeable-Packages "0";
APT::Periodic::AutocleanInterval "0";
请使用相关命令打开 /etc/apt/apt.conf.d/20auto-upgrades
配置文件,命令格式如下
vim /etc/apt/apt.conf.d/20auto-upgrades
在配置文件中添加相关内容,添加如下内容
APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Unattended-Upgrade "0";
2. 关闭 nouveau 开源驱动
请使用相关命令打开配置文件 /etc/modprobe.d/blacklist-nouveau.conf
,命令格式如下
vim /etc/modprobe.d/blacklist-nouveau.conf
在配置文件中添加以下内容以禁用 nouveau 驱动,添加内容如下
blacklist nouveau
options nouveau modeset=0
更新 initramfs 以应用配置更改,命令格式如下
update-initramfs -u
完成后重启服务器,命令格式如下
reboot
3. 检查驱动程序
查询驱动,命令格式如下
nvidia-smi
若查询结果如下,表示驱动已存在,则跳过步骤4和步骤5,直接执行 下载安装脚本
Thu May 8 07:01:39 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.144 Driver Version: 570.144 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3090 Off | 00000000:01:00.0 Off | N/A |
| 36% 31C P0 111W / 350W | 0MiB / 24576MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 3090 Off | 00000000:02:00.0 Off | N/A |
| 36% 31C P0 117W / 350W | 0MiB / 24576MiB | 2% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
若查询无驱动,则继续执行步骤4和步骤5
4. 下载NVIDIA驱动程序
说明
- 访问 NVIDIA 驱动下载页面
- 根据显卡型号和操作系统版本选择对应的驱动程序并下载安装文件,示例如下。
① 输入显卡型号,手动搜索驱动。(以「 GeForce RTX 40 Series | NVIDIA GeForce RTX 4070 Ti | Linux 64-bit 」为例)
② 点击「 查找 」,查看驱动下载类型
③ 选择「 推荐驱动/认证驱动 」类型,点击「 查看 」,查看驱动详情
④ 点击「 下载 」,下载对应的驱动程序,并上传到服务器
5. 安装驱动程序
说明
以下NVIDIA-Linux-x86_64-570.144.run为示例文件,实际安装需要替换成实际驱动文件名称
赋予安装文件执行权限,命令格式如下
chmod +x NVIDIA-Linux-x86_64-570.144.run
运行安装程序,跳过 X Server 检查并不安装 OpenGL 文件(如适用),命令格式如下
./NVIDIA-Linux-x86_64-570.144.run -no-x-check -no-opengl-files
命令执行结果如下,选择 「 NVIDIA Proprietary 」,并点击
点击后,如若遇到下图所示结果,则使用相关命令执行安装程序;如若未遇到,则跳过此步骤
执行以下命令安装工具
apt update
apt install make gcc -y
再次运行安装程序
./NVIDIA-Linux-x86_64-570.144.run -no-x-check -no-opengl-files
安装完成后重新执行以下命令检查驱动
nvidia-smi
下载安装脚本
说明
「 客户ID 」需要替换为您实际的信息,ID获取详见控制台-基本资料。
请使用相关命令在当前节点下载安装脚本,命令格式如下:
1.专业版
管理节点
wget -O install_manager.sh https://cluster.aigate.cc/backend-api/admin/deploy/env/professional/manager/install/<客户ID> && chmod +x install_manager.sh
存储节点
wget -O install_storage.sh https://cluster.aigate.cc/backend-api/admin/deploy/env/professional/storage/install/<客户ID> && chmod +x install_storage.sh
计算节点
下载免费版/标准版安装脚本
2.免费版/标准版
wget -O install.sh https://cluster.aigate.cc/backend-api/admin/deploy/env/install/<客户ID> && chmod +x install.sh
执行脚本
执行下载的脚本,当您看到相关日志时,恭喜您,说明安装已经完成,日志示例如下
[2025-04-07 01:46:41] Installation completed successfully
[2025-04-07 01:46:41] WARNING: System will reboot in 1 minute. Use 'shutdown -c' to cancel.
[2025-04-07 01:46:41] Executing: shutdown -r +1 'Reboot By InfraX'
Installation log has been saved to: /var/log/infra_install_20250407_014609.log
说明
WARNING: System will reboot in 1 minute. Use 'shutdown -c' to cancel. 请等待服务器重启后执行后续操作.