从Host到DPUNVIDIA BF3 DPU双系统部署与跨平台管理实战在异构计算架构逐渐成为主流的今天NVIDIA BlueField-3 DPU以其独特的服务器中的服务器设计理念为数据中心基础设施带来了革命性的变化。本文将带您深入探索如何在Ubuntu 18.04 Host系统上为BF3 DPU部署独立的Ubuntu 22.04操作系统并建立完整的跨系统管理通道。1. 理解BF3 DPU的双系统架构NVIDIA BlueField-3 DPU最引人注目的特性莫过于其能够在单张卡上运行完整的独立操作系统。这种设计使得DPU不再仅仅是网络加速卡而是演变为一个具备完整计算能力的协处理器。在实际部署中Host机器运行Ubuntu 18.04 LTS而DPU则运行专为ARM架构优化的Ubuntu 22.04系统形成典型的异构计算环境。这种架构带来了几个显著优势资源隔离网络、存储和安全功能完全卸载到DPU不影响Host系统性能独立管理DPU操作系统可单独升级维护不影响Host业务连续性灵活部署DPU可运行与Host不同的操作系统版本和软件栈关键组件说明RShim接口Host与DPU通信的基础通道通过tmfifo_net0虚拟网络接口实现BFB镜像专为BlueField DPU定制的系统镜像文件包含完整操作系统环境DOCA软件栈NVIDIA提供的开发框架用于充分发挥DPU硬件能力2. 环境准备与DOCA安装2.1 硬件安装与检查在开始软件配置前确保已完成以下硬件准备工作安全断电关闭服务器电源确保操作安全PCIe安装将BF3 DPU正确插入服务器的PCIe x16插槽供电连接部分BF3型号需要额外供电检查并连接必要电源线物理检查确认DPU完全插入固定支架安装牢固硬件安装完成后启动系统并通过以下命令验证DPU识别状态lspci | grep Mellanox预期应看到类似输出01:00.0 Ethernet controller: Mellanox Technologies BlueField-3 SmartNIC2.2 Host系统环境准备Ubuntu 18.04 Host需要配置合适的软件环境以支持DPU管理。首先清理可能存在的旧版驱动for f in $(dpkg --list | grep doca | awk {print $2}); do apt remove --purge $f -y done sudo apt-get autoremove接下来添加Mellanox软件仓库的GPG密钥wget http://www.mellanox.com/downloads/ofed/RPM-GPG-KEY-Mellanox-SHA256 sudo apt install rpm sudo rpm --import RPM-GPG-KEY-Mellanox-SHA2562.3 DOCA软件栈安装根据Ubuntu 18.04系统版本选择DOCA 2.5.0版本进行安装sudo dpkg -i doca-host-repo-ubuntu1804_2.5.0-0.0.1.2.5.0108.1.23.10.1.1.9.0_amd64.deb sudo apt-get update sudo apt install doca-tools启动Mellanox固件工具并获取DPU设备IDsudo mst start sudo mst status -v记录输出的设备路径如/dev/mst/mt41692_pciconf0.1后续配置将使用此路径。3. DPU系统镜像部署3.1 准备BFB镜像BFBBlueField Bootstream是专为DPU定制的系统镜像格式。从NVIDIA官方网站获取与DOCA 2.5.0兼容的Ubuntu 22.04 BFB镜像wget [NVIDIA官方镜像下载链接]同时准备配置文件bf.cfg内容示例usernameubuntu passwordyour_secure_password3.2 安装BFB镜像到DPU使用bfb-install工具将镜像烧录到DPUsudo apt-get install pv sudo bfb-install --rshim rshim0 \ --bfb DOCA_2.5.0_BSP_4.5.0_Ubuntu_22.04-1.23-10.prod.bfb \ --config bf.cfg安装过程可能需要5-10分钟取决于系统性能。完成后验证RShim设备ls -la /dev/ | grep rshim3.3 网络配置与连接为RShim接口分配IP地址建立Host与DPU的通信通道sudo ifconfig tmfifo_net0 192.168.100.1 netmask 255.255.255.252 up此时DPU系统应已启动并自动获取IP地址通常为192.168.100.2。通过SSH测试连接ssh ubuntu192.168.100.2首次连接会提示接受主机密钥输入配置文件中设置的密码即可登录。4. 跨系统操作与管理4.1 基础信息验证登录DPU系统后首先验证操作系统版本cat /proc/version检查DOCA版本兼容性dpkg -l | grep doca4.2 文件传输实践Host与DPU之间的文件传输是常见需求。从Host向DPU传输文件scp /path/to/local/file ubuntu192.168.100.2:/target/path/从DPU获取文件到Hostscp ubuntu192.168.100.2:/remote/file /local/path/4.3 网络配置进阶默认RShim网络仅用于基础通信。实际部署中可能需要配置更复杂的网络拓扑Host端永久网络配置/etc/network/interfacesauto tmfifo_net0 iface tmfifo_net0 inet static address 192.168.100.1 netmask 255.255.255.252DPU端网络配置通过SSH登录后sudo nano /etc/netplan/00-installer-config.yaml示例配置network: version: 2 ethernet: p0: dhcp4: true应用配置sudo netplan apply5. 常见问题与性能优化5.1 安装问题排查症状bfb-install失败检查RShim服务状态sudo systemctl status rshim验证设备权限ls -l /dev/rshim0确认镜像完整性sha256sum [BFB文件]症状SSH连接超时验证IP配置ping 192.168.100.2检查防火墙规则sudo ufw status重启RShim服务sudo systemctl restart rshim5.2 性能优化建议RShim通道优化sudo ethtool -G tmfifo_net0 rx 4096 tx 4096DPU资源分配sudo mlxconfig -d /dev/mst/mt41692_pciconf0.1 set NUM_OF_VFS16中断平衡sudo apt install irqbalance sudo systemctl enable irqbalance5.3 日常维护技巧日志检查journalctl -u rshim --no-pager -n 50DPU系统更新ssh ubuntu192.168.100.2 sudo apt update sudo apt upgrade -y健康状态监控ssh ubuntu192.168.100.2 sudo bfb-status在实际项目部署中我们发现保持Host和DPU系统时间同步至关重要。通过配置NTP服务可避免许多微妙的时序问题ssh ubuntu192.168.100.2 sudo timedatectl set-ntp true
从Host到DPU:一步步拆解NVIDIA BF3 DPU的双系统(Ubuntu 18.04 Host + 22.04 DPU)安装与SSH互联
发布时间:2026/5/31 3:49:24
从Host到DPUNVIDIA BF3 DPU双系统部署与跨平台管理实战在异构计算架构逐渐成为主流的今天NVIDIA BlueField-3 DPU以其独特的服务器中的服务器设计理念为数据中心基础设施带来了革命性的变化。本文将带您深入探索如何在Ubuntu 18.04 Host系统上为BF3 DPU部署独立的Ubuntu 22.04操作系统并建立完整的跨系统管理通道。1. 理解BF3 DPU的双系统架构NVIDIA BlueField-3 DPU最引人注目的特性莫过于其能够在单张卡上运行完整的独立操作系统。这种设计使得DPU不再仅仅是网络加速卡而是演变为一个具备完整计算能力的协处理器。在实际部署中Host机器运行Ubuntu 18.04 LTS而DPU则运行专为ARM架构优化的Ubuntu 22.04系统形成典型的异构计算环境。这种架构带来了几个显著优势资源隔离网络、存储和安全功能完全卸载到DPU不影响Host系统性能独立管理DPU操作系统可单独升级维护不影响Host业务连续性灵活部署DPU可运行与Host不同的操作系统版本和软件栈关键组件说明RShim接口Host与DPU通信的基础通道通过tmfifo_net0虚拟网络接口实现BFB镜像专为BlueField DPU定制的系统镜像文件包含完整操作系统环境DOCA软件栈NVIDIA提供的开发框架用于充分发挥DPU硬件能力2. 环境准备与DOCA安装2.1 硬件安装与检查在开始软件配置前确保已完成以下硬件准备工作安全断电关闭服务器电源确保操作安全PCIe安装将BF3 DPU正确插入服务器的PCIe x16插槽供电连接部分BF3型号需要额外供电检查并连接必要电源线物理检查确认DPU完全插入固定支架安装牢固硬件安装完成后启动系统并通过以下命令验证DPU识别状态lspci | grep Mellanox预期应看到类似输出01:00.0 Ethernet controller: Mellanox Technologies BlueField-3 SmartNIC2.2 Host系统环境准备Ubuntu 18.04 Host需要配置合适的软件环境以支持DPU管理。首先清理可能存在的旧版驱动for f in $(dpkg --list | grep doca | awk {print $2}); do apt remove --purge $f -y done sudo apt-get autoremove接下来添加Mellanox软件仓库的GPG密钥wget http://www.mellanox.com/downloads/ofed/RPM-GPG-KEY-Mellanox-SHA256 sudo apt install rpm sudo rpm --import RPM-GPG-KEY-Mellanox-SHA2562.3 DOCA软件栈安装根据Ubuntu 18.04系统版本选择DOCA 2.5.0版本进行安装sudo dpkg -i doca-host-repo-ubuntu1804_2.5.0-0.0.1.2.5.0108.1.23.10.1.1.9.0_amd64.deb sudo apt-get update sudo apt install doca-tools启动Mellanox固件工具并获取DPU设备IDsudo mst start sudo mst status -v记录输出的设备路径如/dev/mst/mt41692_pciconf0.1后续配置将使用此路径。3. DPU系统镜像部署3.1 准备BFB镜像BFBBlueField Bootstream是专为DPU定制的系统镜像格式。从NVIDIA官方网站获取与DOCA 2.5.0兼容的Ubuntu 22.04 BFB镜像wget [NVIDIA官方镜像下载链接]同时准备配置文件bf.cfg内容示例usernameubuntu passwordyour_secure_password3.2 安装BFB镜像到DPU使用bfb-install工具将镜像烧录到DPUsudo apt-get install pv sudo bfb-install --rshim rshim0 \ --bfb DOCA_2.5.0_BSP_4.5.0_Ubuntu_22.04-1.23-10.prod.bfb \ --config bf.cfg安装过程可能需要5-10分钟取决于系统性能。完成后验证RShim设备ls -la /dev/ | grep rshim3.3 网络配置与连接为RShim接口分配IP地址建立Host与DPU的通信通道sudo ifconfig tmfifo_net0 192.168.100.1 netmask 255.255.255.252 up此时DPU系统应已启动并自动获取IP地址通常为192.168.100.2。通过SSH测试连接ssh ubuntu192.168.100.2首次连接会提示接受主机密钥输入配置文件中设置的密码即可登录。4. 跨系统操作与管理4.1 基础信息验证登录DPU系统后首先验证操作系统版本cat /proc/version检查DOCA版本兼容性dpkg -l | grep doca4.2 文件传输实践Host与DPU之间的文件传输是常见需求。从Host向DPU传输文件scp /path/to/local/file ubuntu192.168.100.2:/target/path/从DPU获取文件到Hostscp ubuntu192.168.100.2:/remote/file /local/path/4.3 网络配置进阶默认RShim网络仅用于基础通信。实际部署中可能需要配置更复杂的网络拓扑Host端永久网络配置/etc/network/interfacesauto tmfifo_net0 iface tmfifo_net0 inet static address 192.168.100.1 netmask 255.255.255.252DPU端网络配置通过SSH登录后sudo nano /etc/netplan/00-installer-config.yaml示例配置network: version: 2 ethernet: p0: dhcp4: true应用配置sudo netplan apply5. 常见问题与性能优化5.1 安装问题排查症状bfb-install失败检查RShim服务状态sudo systemctl status rshim验证设备权限ls -l /dev/rshim0确认镜像完整性sha256sum [BFB文件]症状SSH连接超时验证IP配置ping 192.168.100.2检查防火墙规则sudo ufw status重启RShim服务sudo systemctl restart rshim5.2 性能优化建议RShim通道优化sudo ethtool -G tmfifo_net0 rx 4096 tx 4096DPU资源分配sudo mlxconfig -d /dev/mst/mt41692_pciconf0.1 set NUM_OF_VFS16中断平衡sudo apt install irqbalance sudo systemctl enable irqbalance5.3 日常维护技巧日志检查journalctl -u rshim --no-pager -n 50DPU系统更新ssh ubuntu192.168.100.2 sudo apt update sudo apt upgrade -y健康状态监控ssh ubuntu192.168.100.2 sudo bfb-status在实际项目部署中我们发现保持Host和DPU系统时间同步至关重要。通过配置NTP服务可避免许多微妙的时序问题ssh ubuntu192.168.100.2 sudo timedatectl set-ntp true