LWN：在 4KB 内核中提供 64KB 基础页的两种不同方案

发布时间：2026/5/23 9:16:59

作者Jonathan Corbet2026年5月11日LSFMMBPF某些 CPU 架构能够以多种不同的基础页base-page大小运行使用较大的页大小通常可以获得更好的性能但代价是增加内存消耗。其他架构的限制则更多。在 2026 年的 Linux 存储、文件系统、内存管理和 BPF 峰会Linux Storage, Filesystem, Memory Management, and BPF Summit上内存管理分论坛的两场会议探讨了在底层内核不支持 64KB 页的情况下如何让进程以 64KB 页大小运行的选择。第一场会议重点讨论了让每个进程拥有自己的页大小而第二场会议则涉及为 x86 系统引入 64KB 页。进程级页大小使用 64KB 页可以提高性能但这样做也会产生内部碎片internal fragmentation和大量的内存浪费。这种内存使用的代价往往限制了较大基础页大小的使用。Ryan Roberts 和 Dev Jain远程提出了一项计划旨在允许进程以与系统整体不同的页大小运行试图兼顾两者的优点。Roberts 首先指出在大页系统和小页系统之间存在性能差距。通过 “随机选择的一组基准测试”使用较大的页大小可以获得 2-17% 的性能提升。但随之而来的内存消耗增加促使人们坚持使用许多架构支持的标准 4KB 页大小。某些最新处理器中提供的连续PTE支持物理上连续的页可以共享一个转译后备缓冲区 (Translation Lookaside Buffer, TLB) 条目提供了一定帮助但即便使用了该特性性能差距依然存在。性能差异的原因有很多。在软件方面较大的页大小意味着更少的页错误page fault和内核中更短的最近最少使用 (Least-Recently-Used, LRU) 列表。在硬件方面较大的页可以提高TLB的利用率运行 64KB 页的系统其TLB覆盖的内存区域是原来的 16 倍。Arm CPU 可以缓存最后一次页表遍历page-table walk的结果从而加速落在同一个页表项 (Page-Table Entry, PTE) 页内的地址转换较大的页大小增加了该缓存的覆盖范围。此外使用较大的页还会使页表更加紧凑减少它们对TLB和缓存的影响。Roberts 说目前有一些针对架构层面的工作旨在消除这种性能差距但这些工作的结果在未来几年内还无法应用。因此有理由探索在软件层面可以做些什么。一种可能性是给每个进程分配自己的页大小这样受益于大页的进程可以使用大页而不会增加系统整体的内存负担。特别是 Arm 架构支持这种概念允许内核保持 4KB 页大小同时允许单个进程以更大的页大小运行。Jain 接手介绍了提议的实现该实现分为三层。第一层是 “ABI 适配器”ABI adaptor旨在隐藏内核页大小与任何给定进程页大小之间的差异。每个进程的页大小存储在mm_struct结构中它在进程派生fork时被保留但可以通过execve()调用进行更改。各种系统调用例如mmap()将修改长度和对齐参数以匹配内核的页大小。Jain 说这项工作相当直接但ioctl()调用可能需要更多关注。ELF 加载器经过增强可以理解具有不同页大小进程的对齐需求。在各种/proc文件的实现中加入了不少技巧使得以 64KB 页运行的进程看到的结果就像是在 64KB 内核上运行一样。第二层是对内核内存管理子系统的一系列修改。事实证明用于实现透明大页 (Transparent Huge Pages, THP) 的许多代码路径可以被复用以便在 4KB 内核上为使用较大页大小的进程提供 64KB 页。对于这类进程分配请求将指定页大小作为最小可接受的分配大小更大的页直至 PMD 级的大页大小仍然是可能的。页缓存 (Page Cache) 自身也面临挑战因为它是由系统中所有进程共享的。一种选择是始终在那里使用 64KB 的 folio但在缓存小文件时这会浪费相当多的内存。因此页缓存大部分时间仍然使用 4KB 页。如果一个 64KB 进程通过mmap()映射一个文件该文件的所有 4KB folio 都将从页缓存中丢弃随后任何新的 folio 都将以较大的尺寸添加到缓存中。Kiryl Shutsemau 询问是否所有文件系统现在都支持页缓存中的大 folioMatthew Wilcox 给予了否定回答称某些文件系统是 “偷懒的家伙”lazy slackers尚未添加该支持。他说最大的问题是 Btrfs。Wilcox 建议作为丢弃页缓存条目的替代方案内核可以在不超出文件末尾的前提下直接使用 64KB folio。Lorenzo Stoakes 表示这项工作看起来相当具有侵入性并质疑为什么不能更多地利用多尺寸透明大页 (multi-size Transparent Huge Pages, mTHPs)它也能提供许多相同的好处。Roberts 回答说mTHPs 并不能提供大页所能提供的所有硬件级收益。Stoakes 还担心广泛使用较大的页大小可能会给内存管理子系统的整理 (compaction) 代码带来巨大压力。由于时间紧迫Roberts 跳过了一些预定的讨论包括第三层即处理不同尺寸页表的架构特定代码直接转到了待解决问题列表。其中第一个问题与当内核在 64KB 进程的上下文中运行时尝试执行需要 4KB 页大小的操作会发生什么有关。一种选择是让进程回退到 4KB 页这将确保功能正确性但会损失性能。另一种选择是让操作失败Roberts 说这个想法 “看起来” 更简单但需要在整个内核中散布大量的页大小检查。用户空间ABI兼容性是一个挑战内核在被 64KB 进程查询时可以假装以 64KB 页运行但它永远无法模拟所有内容。例如某些/proc文件根本无法隐藏内核正在使用 4KB 页的事实。当 64KB 进程读取/proc//PID//pagemap时也无法表示一个 4KB 进程。还有一些系统调用和其他特性例如userfaultfd()是无法模拟的。Roberts 说处理这些问题的一种方法是 “削减”defeature64KB 进程的功能。具有不同页大小的进程彼此不可见页大小大于内核页大小的进程将无法使用userfaultfd()等特性。任何无法向 64KB 进程正确表示的操作都将直接失败。Roberts 最后总结道虽然允许进程拥有不同的页大小带来了好处但也存在一些棘手的问题。添加这一特性还会给内存管理子系统带来相当大的变动。不过这些收益可能确实值得付出这些努力。x86 的 64KB 基础页大小对于受益于较大基础页的工作负载来说使用较大的基础页可能是一个不错的解决方案但存在一个小问题包括 x86 在内的一些次要架构不支持以较大的基础页大小运行。在下一场会议中Shutsemau 提出了一种在 x86 系统上绕过此限制的方法。不过这个想法遭到了在场开发者的某种程度的怀疑。Shutsemau 开始说道在 Arm 处理器上使用 64KB 基础页可以为 “一个非常重要的工作负载” 带来 1.7% 的性能提升他希望也将这种提速带到 x86 系统上。使用较大的页将减少系统内存映射memory map的内存开销允许轻松且能提升性能的TLB合并、更快的 I/O 操作以及更容易分配 1GB 的巨页。他说这样做需要将内核中系统页大小的概念一分为二。目前PAGE_SIZE宏在整个内核中用于表示硬件的基础页大小。Shutsemau 将逐步淘汰该宏转而使用PTE_SIZE描述硬件视角的基础页大小和PG_SIZE内核管理且用户空间可见的页大小。只有当PTE_SIZE和PG_SIZE相等时才会定义PAGE_SIZE宏。他说页帧号Page-frame numbers将始终引用PTE_SIZE帧。毋庸置疑内核中有许多地方需要更改以反映这种新的世界观。创建页表项将变得更加复杂因为必须考虑 (PG_SIZE) 页内的偏移量所有处理PTE的函数都将获得一个新的偏移量参数。虽然内核管理的是 64KB 页但用户空间看到的页大小仍将一如既往地是 4KB。因此在这种系统上成功运行不需要对用户空间进行任何更改。Shutsemau 说最具挑战性的部分是页错误处理因为必须为每个发生错误的页映射多个PTE。用户空间仅被维持在 4KB 的对齐要求上这意味着虚拟内存区域 (Virtual Memory Areas, VMAs) 可能在 64KB 页的中间开始或结束。因此页错误处理程序最终可能在发生错误时仅映射页的一部分在这种情况下页中未映射的部分将直接被浪费掉。未对齐的页也可能导致内存浪费。Wilcox 说在这些系统上写时复制 (Copy-on-Write, COW) 错误将变得更加昂贵因为它们必须将周围的基础页也加载进来以填满一个 64KB 页。相反David Hildenbrand 担心userfaultfd()将如何实现它可能需要一个新的操作来安装单个PTE而不是整个页。Hildenbrand 还建议最好在整个系统中统一使用 64KB 页大小他说这会让大家的生活都变得更轻松。Shutsemau 回答说这实际上只是将复杂性转移到了架构代码中架构代码必须实现一个基础页大小较大的假象并对内核其余部分隐藏细节。转向较大的基础页大小还会破坏一些应用程序。Hildenbrand 对后一点并不表示同情称这类程序要么应该被修复要么就只在 4KB 系统上运行。Jason Gunthorpe 说在 Arm 系统上已经有很多关于 64KB 页大小的经验了。他说用户往往会反对因为总会有那么一个只能在 4KB 页下运行的特殊应用程序。另一位与会者询问既然内核对 mTHPs 的支持正随着时间的推移变得越来越好为什么还需要这种复杂性。Shutsemau 说这个想法的部分问题在于并非所有文件系统都支持较大的 folio。坚持较小的基础页大小也使得系统更难分配较大的内存块。在内存浪费的话题上Hildenbrand 提出了创建 “负阶 folio”negative-order folios来表示子页sub-page内存块的可能性。还有人建议使用 slab 分配器进行子页分配但这并非在所有情况下都有效。随着会议接近尾声Shutsemau 承认他并没有看到大家对他的提议有太多热情。他询问根本的反对意见是什么。Hildenbrand 回答说在当前的内核中零阶 folio 就是单个页改变这一理解将涉及对 folio 处理方式的重大改变。他要求一种更简洁的方法一种不需要 “怪异的页部分接口”weird part-of-page interfaces就能达到预期目标的方法。Gunthorpe 说根本的限制在于必须有一种方法来运行需要 4KB 页大小的旧应用程序。最好能找到一种方法在对内核干扰最小的情况下在具有较大基础页大小的系统上解决这个问题。会议结束时Hildenbrand 表示内核中的其他工作正在解决 Shutsemau 提议更改背后的许多动机。鉴于此他建议 64KB 基础页可能并非未来正确的道路可能是更好地优化 4KB 页系统的运行。LWN 评论概述[本文引发了关于内存管理复杂性与性能收益之间权衡的讨论。]部分评论者指出内核已经拥有大 folio 机制这能以更稳健的方式提供类似收益而无需引入新的怪异特性目前的问题在于并非所有代码都已完成转换。也有人提到为了 1.7% 的性能提升而引入如此巨大的复杂性是否值得特别是在面对内存内碎片等副作用时。此外针对旧应用的兼容性问题有人提议是否可以让旧应用运行在传统虚拟机中而让现代应用原生利用大页。关于 “负阶 folio” 的提议Hildenbrand 澄清那并非他的本意可能只是在讨论过程中产生的某种构想。关注了就能看到更多这么棒的文章哦全文完LWN 文章遵循 CC BY-SA 4.0 许可协议。欢迎分享、转载及基于现有协议再创作长按下面二维码关注关注 LWN 深度文章以及开源社区的各种新近言论

大洗牌！Google 内部确认：Go 正取代 C++，成为 AI Agent 时代的“通用语言”

大家好，我是Tony Bai。在过去的两年里，只要一提到 AI 开发，99% 的人脑海中弹出的第一个词绝对是：Python。而如果是涉及到大模型底层的高性能推理与算力压榨，大家想到的必然是 C 或是 Rust。但在真正的工程落地中&#…

2026/5/23 9:16:59 阅读更多

Jenga框架双引擎设计：视频生成效率优化解析

1. Jenga框架核心设计解析Jenga视频生成框架的核心创新在于其双引擎设计：渐进式分辨率(ProRes)和动态块稀疏注意力(AttenCarve)。这两种技术协同工作，解决了Transformer架构在视频生成中的计算效率瓶颈。1.1 渐进式分辨率技术(ProRes)ProRes采用分阶段生…

2026/5/23 9:16:19 阅读更多

SCP-Firmware缓冲区溢出漏洞(CVE-2024-9413)分析与防护

1. 漏洞概述与影响范围解析CVE-2024-9413是近期在SCP-Firmware中发现的一个高危安全漏洞，其核心问题在于应用程序处理器（AP）可能通过特定操作触发系统控制处理器（SCP）固件中的缓冲区溢出。这种漏洞类型在嵌入式系统安全…

2026/5/23 9:16:19 阅读更多

别再混淆EbN0和SNR了！手把手教你用Python验证MQAM误码率公式（附完整代码）

从理论到实践：用Python彻底解析EbN0与SNR的误码率验证通信仿真中经常遇到一个经典问题：为什么我的误码率曲线和理论公式对不上？这个问题困扰过无数通信工程师和研究者。本文将带你从基础概念出发，通过Python代码实现&#xff0c…

2026/5/23 12:24:11 阅读更多

Bebas Neue：为什么这款免费开源字体成为全球设计师的终极选择？

Bebas Neue：为什么这款免费开源字体成为全球设计师的终极选择？ 【免费下载链接】Bebas-Neue Bebas Neue font 项目地址: https://gitcode.com/gh_mirrors/be/Bebas-Neue 在数字设计的世界里，字体不仅仅是文字的载体，更是视…

2026/5/23 12:23:29 阅读更多

MTK玩机神器：除了刷机授权，它还能备份NV基带、解包OFP/Super.img固件？

MTK玩机神器进阶指南：从基带备份到固件解构的深度探索对于已经掌握基础刷机技巧的MTK设备玩家来说，真正的乐趣才刚刚开始。当大多数教程还在反复讲解如何解锁Bootloader或刷入TWRP时，我们已经可以探索更深层次的玩机领域——那些关乎设备长…

2026/5/23 12:23:29 阅读更多

基于计算机视觉与物联网的老年人跌倒检测系统：从算法原理到边缘部署实战

1. 项目概述：当“摔倒”成为独居老人的隐形杀手“妈，你没事吧？刚才监控里看你好像晃了一下。” “没事没事，就是弯腰捡个东西，有点头晕。” 这段发生在无数家庭的对话，背后隐藏着一个严峻的社会问题&#x…

2026/5/23 12:23:08 阅读更多

零售业的AI Agent：个性化推荐与库存管理

从零落地零售业AI Agent：打通个性化推荐与智能库存管理的全链路实践副标题：技术栈：LangChain + 向量数据库 + 时序预测 + 多Agent协同，降本提效30%+的可落地方案第一部分：引言与基础 1.1 摘要/引言不知道你有没有过这样的体验：刚在电商平台买了一罐婴儿奶粉，接下来…

2026/5/23 12:22:28 阅读更多

5个实战技巧：Unlock-Music浏览器端音乐解密技术深度解析

5个实战技巧：Unlock-Music浏览器端音乐解密技术深度解析【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: htt…

2026/5/23 12:22:08 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…