实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

在AI计算集群等场景中，系统级容器的稳定部署、GPU资源高效透传及多容器运行时兼容是核心需求，传统容器方案要么无法良好支持systemd服务管理，要么GPU透传配置复杂、需在容器内重复安装驱动，且难以兼顾Rootless Podman与Docker的二级容器运行需求。本文针对这一现状，详细阐述一套集成Nvidia GPU透传、自动驱动注入、systemd-nspawn容器管理及多二级容器运行时的完整方案，该方案已在某高校AI计算集群中稳定运行数月，可有效降低集群容器化部署的复杂度，提升资源利用率。

针对传统容器部署存在GPU透传配置繁琐、需在容器内额外安装驱动导致环境冗余、systemd支持不足、二级容器运行时兼容性差及Rootless模式适配困难等痛点，本方案核心优势在于无需在容器内安装GPU驱动，可动态扫描并挂载NVIDIA库和工具，完美支持GPU透传与CDI驱动注入，兼容Docker与Rootless Podman两种二级容器运行时，同时通过脚本实现systemd-nspawn容器的自动监控与管理，简化集群部署与运维成本。

功能特性：

✅ 多级容器的 NVIDIA GPU 透传支持，支持 DinD/PinD 模式
✅ 动态扫描 NVIDIA 库和工具，不需要在容器内安装 GPU 驱动，容器驱动自动跟随宿主机更新
✅ 真正的系统级容器，完美支持 systemd 服务管理，同时无Docker一级容器方案的存储冗余、可靠性差等诸多弊端。
✅ 支持 Docker 和 Podman 二级容器运行时，容器内可以再运行容器，支持 CDI 方式的 NVIDIA GPU 驱动注入
✅ 多节点集群支持，自动配置跨节点路由，支持宿主集群NFS。
✅ 支持 Rootless Podman 容器运行时，安全性风险低。
✅ 自动监控和管理 systemd-nspawn 容器。

点击阅读全文 →

（2024更新）修复黑群晖 DSM7.0 + Btrfs 存储空间/磁盘损毁/堪用的问题

意外断电重启后，发现群晖提示硬盘损毁了，但是实际上硬盘还是正常的，S.M.A.R.T. 状态也良好，但是无法写入数据，系统状态报告为“严重”，群晖的程序也拒绝工作。

我们来先治标再治本。

治标：修复存储空间故障方法

通过 SSH 直接登录 root 账号。如果不方便直接登录 root，则执行：
```
cd /
sudo -i
```
对于虚拟机黑群晖如果SSH挂了也没事，开个管道模式的串口连接(例如 \\.\pipe\dsm)，然后用Putty或者Xshell 以管理员身份运行 连上管道即可。
检查有问题的存储池，此时可以看到 sdc3 后面的 [E] 表示他现在是错误状态：

cat /proc/mdstat

点击阅读全文 →

在 Ubuntu 21.10 上启用蓝牙 LDAC/AAC/AptX 高质量音频编码支持

Ubuntu 21.10 已经默认部分安装了 PipeWire 并用于 WebRTC。我们只需要安装 PipeWire 所需的蓝牙音频编码器，并替代默认的 PulseAudio 声音系统即可自动启用 LDAC / AAC / AptX 支持。

点击阅读全文 →

自编译红米 AC2100 OpenWRT R21.7.26

分享一下之前自行编译的路由器固件给有需要的人

一句话总结特点：锐捷 | 闭源驱动 | Wireguard | 组网 | NFS | 多拨 | 弱信号剔除

点击阅读全文 →

Linux 内核结构和子系统简介

本文是对 Anatomy of the Linux kernel 的部分翻译。

操作系统是计算机技术不可或缺的组成部分，是硬件设备在应用领域的延展与扩充，能够有效规划和设计计算机的工作流程，保证资源的合理配置和科学管理，确保用户能够便捷自如地操作计算机，满足多层面的任务需要。[1]在计算机上配置操作系统，主要是为了方便用户使用；提高系统资源利用率、提高系统吞吐量；方便增添新的功能和模块；遵循世界标准规范。一个没有配置操作系统的计算机几乎是无法使用的。

自计算机产生以来,人们就开始关注操作系统的研究。本文将就目前在移动端、桌面端、服务器使用较为广泛的操作系统内核Linux展开论述。

Linux 内核简介

图 1 Linux 基本体系结构

如图所示。用户和应用程序空间位于顶部。此处执行用户应用程序。用户空间下面是内核空间。Linux内核运行在此处。

另有GNU C库(glibc）。它提供连接到内核的系统调用接口(System call
interface)，并提供了在用户空间(user-space)的应用程序和内核之间转换的功能。因为内核和用户应用程序占用不同的受保护地址空间。并且，尽管每个用户空间进程都占用其自己的虚拟地址空间，但内核仅占用一个地址空间。[2]

Linux内核可以进一步分为三个级别。顶部是系统调用接口，该接口实现诸如读取和写入之类的基本功能。在系统调用接口下方的是内核代码，是与体系结构无关的内核代码。该代码是Linux支持的所有处理器体系结构的通用代码。在此之下是与体系结构相关的代码，该代码通常称为BSP（Board
Support Package,
板级支持包）。该代码用作特定体系结构的处理器和特定平台的代码。

Linux内核分为许多不同的子系统。
Linux也可以看作是一个整体，因为它将所有基本服务集中到内核中（宏内核）。这与微内核体系结构不同，在微体系结构中，内核提供基本服务，例如通信，I/O，内存和进程管理，而更具体的服务则进入微内核层。

随着Linux的发展，Linux内核在内存和CPU使用率方面日渐高效，并且非常稳定。Linux最值得称道的方面是它的可移植性。可以将Linux编译为可在具有不同体系结构约束和需求的大量处理器和平台上运行。例如，许多家用路由器（例如小米、华硕、斐讯）都运行基于Linux的OpenWRT的厂商定制版。

Linux 主要子系统

操作系统的主要功能包括处理机管理、存储器管理、设备管理、文件管理、用户接口。处理机管理包括进程控制、进程同步、进程通信、调度。存储器管理包括内存分配、内存保护、地址映射、内存扩充。设备管理包括缓冲管理、设备分配、设备处理。文件管理：文件存储空间管理、目录管理、文件的读写管理和保护。用户接口包括联机用户接口、脱机用户接口、图形用户接口。[3]这正是Linux的主要子系统。

图 2 Linux的主要子系统

处理机管理: Linux 进程调度

进程(Process)调度负责进程的执行和管理。在内核中，这些进程称为”线程”，代表对处理器的一个虚拟化(virtualization)。。在用户空间中，虽然Linux并未将两个概念（进程和线程）分开，但我们仍然通常使用术语”进程(Process)”。内核通过SCI提供了一个应用程序接口（API）来创建新进程（fork，exec或其他
POSIX
函数），停止进程（强制结束(kill)，退出(exit)）以及在它们之间进行通信和同步（信号(signal)或其他POSIX机制）。此API通常被init程序(现在通常为systemd)调用来创建新进程。

在进程管理中，还需要在活动线程之间共享CPU。Linux内核实现了一种新颖的调度算法，该算法可在常数时间执行，而与争用CPU的线程数量无关。称为O(1)调度程序(O(1)
scheduler)，表示调度一个线程和调度多个线程所花费的时间相同。O(1)调度程序还支持多个处理器（称为SMP(对称多处理）)。

存储器管理: Linux 内存管理

内核管理的另一个重要事项是内存。为了提高效率，考虑到硬件管理虚拟内存的方式，内存以”页面”（对于大多数CPU体系结构，页大小为4KB）进行管理。
Linux存储器管理包括管理可用内存的方法，以及用于物理和虚拟内存映射的硬件机制。

但是内存管理不仅仅是管理4KB缓冲区。Linux还提供了4KB缓冲区（例如slab分配器）上的抽象。该内存管理方案使用4KB缓冲区作为基础，然后从内部分配结构，跟踪哪些页已满、哪些只使用了一部分、哪些为空。该方案能够根据更大系统的需求动态增长和收缩。

Linux支持多个内存”用户”，物理内存经常会耗尽。为了解决此问题，可以将页面移出内存并移至磁盘上。此过程称为交换(swapping)，因为页面是从内存交换到硬盘上的。

文件管理: 虚拟文件系统(VFS)

图 3 VFS

虚拟文件系统（VFS）为文件系统提供了通用的接口抽象。
VFS在SCI和内核支持的文件系统之间提供了一个交换层（图3）。

VFS的顶部是通用的API的抽象，例如打开，关闭，读取和写入。
VFS的底部是文件系统的抽象，定义了如何实现上层功能。这些是给定文件系统的插件（内核有50个以上）。

文件系统层下面是缓冲区高速缓存，它为文件系统层提供了一组通用功能（独立于任何特定文件系统）。该缓存层通过将数据保留很短的时间（或预先推测性读取，以便在需要时可以使用数据）来优化对物理设备的访问。缓冲区高速缓存下方是设备驱动程序，这些驱动程序实现了特定物理设备的接口。

用户接口: 系统调用接口(SCI)

SCI是一个相当简单的”层”，提供了从用户空间到内核执行函数调用的方法。如前所述，即使在同一系列的处理器中，此接口也可能依赖于CPU体系结构。
SCI实际上是一种调用复用和解复用服务。

系统调用接口是为函数调用服务是一种特殊机制,主要完成从客户到内核数据的调用,并将源码储存起来。客户能够对进程进行控制,主要运用调用接口来实现,在各进程中能够完成实时通信。通信机制有多种,常使用的如signal等。

Linux 网络栈

Linux网络栈遵循根据协议本身建模的分层体系结构，例如OSI模型。在Linux网络栈中，IP协议仍是位于传输层（如TCP）之下的核心网络层协议。TCP之上是套接字(Socket)层，它是通过SCI调用的。

套接字(Socket)层是网络子系统的标准API，并为各种网络协议提供用户界面。包括原始IP协议数据单元（PDU）、TCP、UDP，套接字层提供了一套标准方法来管理连接并在端口之间传输数据。

Ubuntu 上通过以太网分享网络连接(NAT)

Ubuntu 自带网络分享功能，但该功能很不稳定，往往断开连接后再连就无法使用了。
现在我们使用 DNSMASQ+IPTables 手动配置NAT.

禁用 systemd-resolved

Ubuntu 提供的 systemd-resolved 抢占53端口，首先禁用它。

systemctl stop systemd-resolved
systemctl disable systemd-resolved

删除不当设置

如果你之前配置过网络分享或已经用有线连接过电脑了，则需要这一步
运行 nm-connection-editor
删除所有有关你要分享的网卡的设置

安装并配置DNSMASQ

安装

apt install dnsmasq
service dnsmasq stop
nano /etc/dnsmasq.conf

编辑 /etc/dnsmasq.conf，加入下列内容：

dns-forward-max=15000
#eno1为你的要分享的网卡名
interface=eno1
dhcp-range=192.168.33.2,192.168.33.150,255.255.255.0,12h

配置域名解析

nano /etc/resolv.conf

填写你的DNS服务器，例如：

nameserver 223.5.5.5
nameserver 223.6.6.6
nameserver 114.114.114.114

启用内核IPV4转发

/etc/sysctl.conf

加入：

net.ipv4.ip_forward=1

运行：

sysctl -p

配置转发，为网卡分配初始IP

eno1为你的要分享的网卡名
enp2s0为有网的（被分享的）网卡名

ifconfig eno1 192.168.33.2
iptables -t nat -A POSTROUTING -o enp2s0 -j MASQUERADE
iptables -A FORWARD -i eno1 -o enp2s0 -m state --state RELATED,ESTABLISHED -j ACCEPT

上述内容重启后无效，可加入 /etc/rc.local 以开机自动应用。

启动DNSMASQ

systemctl enable dnsmasq
systemctl start dnsmasq
systemctl status dnsmasq

完事！

Nginx 反向代理 Aria2 JSONRPC

给Aria2服务器所用的SSL证书往往不支持Aria2所使用的6800端口，而80/443端口还要提供HTTP服务，为此就需要用Nginx来实现同时提供HTTP和Aria2 JSONRPC服务了。

目前已经测试通过并部署到了生产服务器，本文只做一个记录。

最终效果：

点击阅读全文 →

文章归档

分类目录

实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

（2024更新）修复黑群晖 DSM7.0 + Btrfs 存储空间/磁盘损毁/堪用的问题

治标：修复存储空间故障方法

在 Ubuntu 21.10 上启用蓝牙 LDAC/AAC/AptX 高质量音频编码支持

自编译红米 AC2100 OpenWRT R21.7.26

Linux 内核结构和子系统简介

Linux 内核简介

Linux 主要子系统

处理机管理: Linux 进程调度

存储器管理: Linux 内存管理

文件管理: 虚拟文件系统(VFS)

用户接口: 系统调用接口(SCI)

Linux 网络栈

Ubuntu 上通过以太网分享网络连接(NAT)

禁用 systemd-resolved

删除不当设置

安装并配置DNSMASQ

配置域名解析

启用内核IPV4转发

配置转发，为网卡分配初始IP

启动DNSMASQ

Nginx 反向代理 Aria2 JSONRPC

文章归档

分类目录

标签

实现带有Nvidia GPU+Rootless Podman+Docker+Systemd+自动驱动注入支持的systemd nspawn容器

（2024更新）修复黑群晖 DSM7.0 + Btrfs 存储空间/磁盘损毁/堪用 的问题

治标：修复存储空间故障方法

在 Ubuntu 21.10 上启用蓝牙 LDAC/AAC/AptX 高质量音频编码支持

自编译 红米 AC2100 OpenWRT R21.7.26

Linux 内核结构和子系统简介

Linux 内核简介

Linux 主要子系统

处理机管理: Linux 进程调度

存储器管理: Linux 内存管理

文件管理: 虚拟文件系统(VFS)

用户接口: 系统调用接口(SCI)

Linux 网络栈

Ubuntu 上通过以太网分享网络连接(NAT)

禁用 systemd-resolved

删除不当设置

安装并配置DNSMASQ

配置域名解析

启用内核IPV4转发

配置转发，为网卡分配初始IP

启动DNSMASQ

Nginx 反向代理 Aria2 JSONRPC

（2024更新）修复黑群晖 DSM7.0 + Btrfs 存储空间/磁盘损毁/堪用的问题

自编译红米 AC2100 OpenWRT R21.7.26