HDFS 的底层机制和流式写入的方式：为什么每次 insert 都会生成新文件，以及流式写入会生成大量小文件

发布时间：2026/5/21 19:56:15

HDFS的一次写入特性导致每次INSERT操作都会生成新文件而非追加到原文件这是出于并发安全、简单设计和容错性的考虑。流式写入由于追求低延迟频繁写入小批量数据如每5秒一次会生成大量小文件如每天上万个小文件。小文件会带来NameNode内存压力、Map任务过多和查询性能下降等问题。解决方案包括定期合并文件、调整流式写入批次大小、使用HBase或Hive3.0的事务功能等。批量写入产生少量大文件而流式写入则产生大量小文件需要根据场景选择合适的写入策略和后续合并方案。为什么每次 insert 都会生成新文件以及流式写入会生成大量小文件核心原因HDFS 的“一次写入”特性流式写入的“小批量”特点这个问题需要从两个层面理解HDFS 的底层机制和流式写入的方式。一、为什么每次 INSERT 都会生成新文件1.1HDFS 不支持“在文件中间插入数据”text传统文件系统如 Windows 打开文件 → 找到第100行 → 插入新行 → 保存 ✅ 可以修改原文件 HDFS打开文件 → 只能追加到末尾不能修改中间内容而且Hive 每次 INSERT 会创建新的独立文件1.2 具体例子sql-- 第一次 INSERT insert into table scores values (101, 张三, 90); -- HDFS 生成/table/scores/000000_0 -- 第二次 INSERT insert into table scores values (102, 李四, 85); -- HDFS 生成/table/scores/000001_0 新文件不是追加到旧文件HDFS 目录结构text/user/hive/warehouse/scores/ ├── 000000_0 ← 第1次 insert 产生的文件 ├── 000001_0 ← 第2次 insert 产生的文件 ├── 000002_0 ← 第3次 insert 产生的文件 └── ...1.3 为什么不追加到已有文件原因说明并发安全多个任务同时写同一个文件会导致数据错乱简单设计每次写新文件避免了复杂的锁机制容错性某个任务失败只影响它自己的文件不会破坏整个表HDFS 特性HDFS 设计为一次写入多次读取追加不是主要场景二、为什么流式写入会产生大量小文件2.1 什么是流式写入text传统批量写入 [等待一天] → [一次性把 1亿条数据写入 HDFS] → 生成 10 个大文件每个 100MB流式写入如 Flume、Kafka [每 5 秒] → [写入 1000 条数据] → 生成 1 个小文件可能只有 64KB [每 5 秒] → [写入 1000 条数据] → 又生成 1 个小文件 [每 5 秒] → [写入 1000 条数据] → 再生成 1 个小文件 ... 一天 86400 秒 ÷ 5 17280 个小文件2.2 形象比喻方式比喻文件情况批量写入一年买一次衣服一次买 10 件大文件流式写入每天买一件衣服每次买完打包成一个包裹很多小文件2.3 为什么流式写入不能等一等再写流式系统的设计目标是低延迟Kafka数据来了就要马上处理不能攒着Flume实时采集日志不能缓存太久如果等 1 小时再写数据就延迟了 1 小时矛盾点text流式系统目标低延迟马上写 → 产生小文件大数据最佳实践大文件批量写 → 但会延迟三、图解对比批量写入可控大文件text┌─────────────────────────────────────────────────────────┐ │ 等待数据攒够 │ │ ↓ │ │ [1000万条数据] │ │ ↓ │ │ 一次性写入 → 生成 10 个文件每个 100MB │ │ ✅ 文件数量可控 │ └─────────────────────────────────────────────────────────┘流式写入不可控小文件text┌─────────────────────────────────────────────────────────┐ │ 第1批5秒→ 1000条 → 文件164KB │ │ 第2批10秒→ 1000条 → 文件264KB │ │ 第3批15秒→ 1000条 → 文件364KB │ │ ... │ │ 第17280批24小时→ 文件1728064KB │ │ ❌ 文件数量爆炸 │ └─────────────────────────────────────────────────────────┘四、为什么小文件是“坏”的问题说明NameNode 内存压力每个文件/目录占用 NameNode 约 150 字节内存1 万个文件占 1.5MB1 亿个文件占 1.5GBMap 任务过多每个小文件至少启动一个 Map 任务任务启动开销大查询慢扫描 1 万个小文件 vs 扫描 10 个大文件后者快得多HDFS 不适合HDFS 是为大文件设计的块大小 128MB小文件浪费元数据五、解决方案对比方案做法适用场景定期合并每小时执行一次INSERT OVERWRITE最常见调整流式写入参数设置 Flume 的batchSize更大如 10000 条再写可以接受一定延迟使用 HBaseHBase 基于 HDFS 但支持随机写不会产生小文件实时读写场景改用 ORC 事务Hive 3.0 支持 ACID可以合并小文件需要更新/删除的场景常用合并方法sql-- 方法定期执行合并 set hive.merge.mapfilestrue; set hive.merge.mapredfilestrue; set hive.merge.size.per.task268435456; -- 256MB -- 覆盖写回自动合并小文件 insert overwrite table target partition(dt2024-01-01) select * from target where dt2024-01-01;六、总结对比表对比项批量写入流式写入写入频率低每小时/每天一次高每秒/每5秒一次单次数据量大GB 级小KB 级文件大小大100MB小几十 KB文件数量少多爆炸增长是否需要合并通常不需要必须定期合并七、一句话总结INSERT 每次都生成新文件是因为 HDFS 不支持修改已有文件写新文件是简单可靠的默认行为。流式写入产生小文件是因为它要保证低延迟数据一来就写来不及等数据攒够再写。

YoloMouse终极指南：游戏鼠标光标自定义工具，告别光标消失烦恼！

YoloMouse终极指南：游戏鼠标光标自定义工具，告别光标消失烦恼！ 【免费下载链接】YoloMouse Game Cursor Changer 项目地址: https://gitcode.com/gh_mirrors/yo/YoloMouse 你是否曾经在激烈的游戏战斗中突然找不到鼠标光标&#xff1f…

2026/5/21 19:55:54 阅读更多

初创公司如何利用Taotoken以最小成本试验多种大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度初创公司如何利用Taotoken以最小成本试验多种大模型能力对于资源有限的初创团队而言，在产品开发初期确定技术方案是一…

2026/5/21 19:55:54 阅读更多

为ClaudeCode配置Taotoken作为稳定后备API服务的方法

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为ClaudeCode配置Taotoken作为稳定后备API服务的方法在开发过程中，依赖单一API服务可能会遇到服务临时不可用或配额耗…

2026/5/21 19:55:54 阅读更多

62、CAN总线混合接地系统：数字地、模拟地与机壳地

CAN总线混合接地系统：数字地、模拟地与机壳地上个月在产线调试一批车载控制器，CAN通信在实验室跑得稳稳当当，一装车就间歇性丢帧。示波器挂上去看CAN_H/CAN_L差分波形，幅值正常，共模电压却在12V到-7V之间来回跳。拆开机箱发现，工程师把数字地、模拟地和机壳地直接拧在同…

2026/5/21 20:34:09 阅读更多

毕业设计深度学习的人体跌倒检测与识别(源码+论文)

文章目录 0 前言1 项目运行效果2 相关技术原理2.1卷积神经网络2.2 YOLO简介2.3 YOLOv5s 模型算法流程和原理2.4 数据集处理数据标注简介数据保存 2.5 模型训练 4 最后 0 前言 🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创…

2026/5/21 20:33:28 阅读更多

LangGraph 并发执行：为什么你的多 Agent 总是“一个卡住全军覆没”？

这篇文章帮你搞定 LangGraph 并发执行的底层原理，从 asyncio 协程到任务分解与状态合并阅读提示适合谁看：有 LangGraph 或 LLM 应用开发经验，正在做高并发多 Agent 的工程师看完能做什么：能设计可扩展、可恢复、可监控的并发执行…

2026/5/21 20:33:08 阅读更多

ViMax：打破视频生成局限，端到端自主创作，多特性开启视频制作新体验！

当前视频生成的局限性当下，视频生成存在着诸多局限。一方面，大多数 AI 工具生成的视频片段时长受限，仅能生成几秒的片段；另一方面，角色和场景在各帧之间会不可预测地变化，导致一致性混乱。而且，…

2026/5/21 20:32:48 阅读更多

谷歌放大招！Gemini 3.5 Flash免费开放，我整理了五种使用方法

就在刚刚的Google I/O 2026上，谷歌正式推出了Gemini 3.5 Flash，直接把它设成了Gemini App的默认模型。说实话，这次发布确实有点猛。它在编码和智能体任务上全面超越了之前的旗舰Gemini 3.1 Pro，输出速度是其他前沿模型的4倍&…

2026/5/21 20:32:27 阅读更多

KaTrain围棋AI：如何用免费AI教练实现棋力快速提升的终极指南

KaTrain围棋AI：如何用免费AI教练实现棋力快速提升的终极指南【免费下载链接】katrain Improve your Baduk skills by training with KataGo! 项目地址: https://gitcode.com/gh_mirrors/ka/katrain 你是否渴望拥有一个随时在线的围棋教练，能精准…

2026/5/21 20:31:47 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

YoloMouse终极指南：游戏鼠标光标自定义工具，告别光标消失烦恼！

初创公司如何利用Taotoken以最小成本试验多种大模型能力

为ClaudeCode配置Taotoken作为稳定后备API服务的方法

62、CAN总线混合接地系统：数字地、模拟地与机壳地

毕业设计 深度学习的人体跌倒检测与识别(源码+论文)

LangGraph 并发执行：为什么你的多 Agent 总是“一个卡住全军覆没”？

ViMax：打破视频生成局限，端到端自主创作，多特性开启视频制作新体验！

谷歌放大招！Gemini 3.5 Flash免费开放，我整理了五种使用方法

KaTrain围棋AI：如何用免费AI教练实现棋力快速提升的终极指南

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

毕业设计深度学习的人体跌倒检测与识别(源码+论文)

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)