既然 ByteBlockPool 底层是一个个连续的大 buffer（通常是 32KB），为什么不直接在大 buffer 里顺序往后写，非要搞出“切片“这个中间层？

发布时间：2026/6/28 1:10:17

这是一个直击灵魂的问题。既然ByteBlockPool底层是一个个连续的大 buffer通常是 32KB为什么不直接在大 buffer 里顺序往后写非要搞出切片这个中间层答案的核心在于ByteBlockPool 不是一个单纯的字节流存储器它是一个支持多路并发写入随机寻址的内存管理器。如果不按 Slice 扩容以下三个核心需求将无法实现1. 多路并发写入互不干扰最核心原因在 Lucene 构建倒排索引时成千上万个 Term 是同时被写入同一个 ByteBlockPool 的。每个 Term 都有自己的 posting list 需要追加数据。如果没有 Slice所有 Term 共享一个写入指针。Term A 写 5 字节Term B 写 3 字节Term C 写 10 字节……它们的数据会像面条一样交织在一起。你根本无法区分哪些字节属于哪个 Term。有了 Slice每个 Term 拥有自己独立的 Slice 链。Term A 的 Slice、Term B 的 Slice 在大 buffer 中各自占据一段空间彼此物理隔离。每个 Slice 有自己的写入游标互不影响。大 Buffer (32KB) 内部的实际布局 [TermA-slice0][TermB-slice0][TermC-slice0][空闲][TermA-slice1][TermD-slice0][TermB-slice1]... ↑ 各 Term 的数据块交错分布但每个块内部是连续的Slice 本质上就是 ByteBlockPool 内部的虚拟独立缓冲区让多个写入者共享同一块物理内存而不冲突。2. 支持非连续增长链表式存储一个 Term 的 posting list 长度是不可预知的可能只有几个字节也可能有几十 MB。如果不用 Slice要为每个 Term 预分配连续空间要么浪费预分配太大要么不够用时需要整体搬迁类似 ArrayList 扩容的Arrays.copyOf。在多线程环境下搬迁数据是灾难性的。用了 Slice每个 Term 的数据以Slice 链表的形式存储。写满了就在大 buffer 的空闲处分配一个新 Slice通过 marker 指过去。不需要搬迁任何已有数据也不需要预分配。Term hello 的数据在物理上不连续但逻辑上是链表 buffer[2].slice(offset100, len200) → marker指向 → buffer[5].slice(offset340, len80) → marker指向 → buffer[5].slice(offset900, len200)读取时沿着 marker 链遍历即可这就是前面讨论的setBytesRef能零拷贝取数据的前提——每个 Slice 内部是连续的所以可以用 BytesRef 直接引用。3. 分级大小是为了极致减少碎片回到你之前问的LEVEL_SIZE_ARRAY。为什么 Slice 不统一大小而要分 10 级因为 Term 的长度分布极度不均匀大量短 Term几个~十几个字节→ 用小 Slice5/14/20避免浪费少量长 Posting List → 用大 Slice80/120/200减少链表节点数和allocSlice()调用开销如果统一用 200 字节的 Slice那些只存 3 字节数据的短 Term 会浪费 98% 的空间。如果统一用 5 字节长 Term 会产生海量链表节点遍历时 cache miss 爆炸。分级就是对这种幂律分布的工程妥协。总结对比方案多路并发动态增长内存碎片读取性能纯顺序写入无 Slice❌ 数据混杂❌ 需搬迁--每 Term 独立 byte[]✅✅❌ 海量小对象GC 爆炸✅ByteBlockPool Slice✅ 隔离且共享✅ 链表式零搬迁✅ 分级控制✅ 片内连续可零拷贝一句话Slice 是 ByteBlockPool 在一块大内存上模拟出无数个独立可变长缓冲区的最小代价抽象。没有它Lucene 就无法在单池内高效地同时构建数百万个 Term 的倒排数据。

项目日记-day00-工具配置开工准备

日期：2026/04/18 目标：工具安装完毕，能打开 IDEA，看到完整的空项目树一、工具安装清单 1.1 IDEA 安装与配置下载安装 IntelliJ IDEA（推荐 2024.1 以上版本）配置 JDK 11： File → Project Struc…

2026/6/28 1:08:34 阅读更多

软件开发中隐性业务规则的终结者：驾驭工程、规范文档与Skill的职责边界

前沿你是否经历过这样的场景：前后端联调时，Swagger 文档看似完备，却频频因为“两个部门不能同时是责任部门”这类隐性规则而返工？根本原因在于我们把技术接口文档当成了业务规格的完整载体。本文从驾驭工程、规范文档、Skill 三者…

2026/6/28 1:08:34 阅读更多

团队文件共享怎么搞？高效协作技巧+主流平台深度测评

摘要：团队协作中80%的效率卡顿，都源于文件传输混乱、版本混乱、权限混乱。本文结合实战场景，详解企业/项目团队高效文件共享协作方案，梳理通用优化技巧，同时横向对比多款主流共享工具，适配小团队、中小企业…

2026/6/28 1:08:13 阅读更多

智读致用《贫穷的本质》07｜穷人为什么借钱很难，背后的经济学原理

前六章聊了饥饿、健康、教育、生育、风险。今天进入第七章拆书学习,话题转向金融——具体来说,是贷款。这一章回答了一个我困惑很久的问题:穷人为什么不去银行借钱,而是去找利率高得吓人的高利贷? 答案远比“银行歧视穷人”要复杂。一个获得诺贝尔和平奖的故事:尤努斯和格…

2026/6/28 2:46:05 阅读更多

曲线参数的实际应用解析

GetParameterAtPoint 返回的曲线参数是一个归一化的数值（通常在 0 到 1 之间），它精确描述了指定点在该曲线参数化方程中的位置。这个参数是后续几乎所有高级几何操作的基础，其核心作用在于将空间中的一个点映射为曲线上一个可计算…

2026/6/28 2:45:45 阅读更多

吉他弦长与音色的物理学——38寸 vs 41寸背后的声学真相

0. 写在前面网上关于"吉他选38寸还是41寸"的讨论，大部分停留在"个子矮选38，个子高选41"的经验层面。本文尝试从弦长（Scale Length）、共振频率、张力分布三个物理维度，解释不同尺寸吉他音色差异的底…

2026/6/28 2:45:25 阅读更多

「简记往来」开发历程系列：邀请码机制设计——有效期控制的完整方案

一、为什么需要有效期？ 简记往来的多人协作功能，通过邀请码让用户加入账本。如果邀请码永久有效，会有什么问题？ 安全风险：很久以前发出的邀请码可能被意外使用管理混乱：创建者不知道哪些邀请码还有效权限过…

2026/6/28 2:45:25 阅读更多

斑马线目标检测数据集分享（适用于YOLO系列深度学习分类检测任务）

斑马线目标检测数据集分享（适用于YOLO系列深度学习分类检测任务） 源码下载链接:https://pan.baidu.com/s/1QCe1i9u40ctgmi4tfuYacg?pwdgmnf 提取码:gmnf 复制这段内容后打开百度网盘手机App，操作更方便哦前言随着人工智能和计算机视觉技术的…

2026/6/28 2:45:25 阅读更多

大模型微调入门：从理论基础到 LLaMA-Factory 实战全指南

本文系统梳理大模型微调的核心理论与落地实操，从模型本质、微调原理讲起，覆盖本地WSL环境、云端GPU服务器搭建，以及LLaMA-Factory工具的安装与全流程使用，适合零基础入门大模型微调的开发者参考。一、理论基础 1.1 模型的本质核…

2026/6/28 2:45:04 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:00:03 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/28 1:01:08 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:02:09 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

2026/6/28 0:00:03 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:01:08 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:02:09 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/27 12:47:04 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/27 13:25:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/27 13:25:16 阅读更多

相关文章

项目日记-day00-工具配置 开工准备

软件开发中隐性业务规则的终结者：驾驭工程、规范文档与Skill的职责边界

团队文件共享怎么搞？高效协作技巧+主流平台深度测评

智读致用《贫穷的本质》07｜穷人为什么借钱很难，背后的经济学原理

曲线参数的实际应用解析

吉他弦长与音色的物理学——38寸 vs 41寸背后的声学真相

「简记往来」开发历程系列：邀请码机制设计——有效期控制的完整方案

斑马线目标检测数据集分享（适用于YOLO系列深度学习分类检测任务）

大模型微调入门：从理论基础到 LLaMA-Factory 实战全指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

项目日记-day00-工具配置开工准备