大数据开发（Hadoop/Spark 生态）在 Ubuntu 环境下：5 个高频率使用的功能性 Shell 脚本

发布时间：2026/5/15 22:45:45

本文提供了5个高频使用的Shell脚本适用于Ubuntu/WSL环境下的大数据开发Hadoop/Spark生态。包括Hadoop集群健康检查脚本HDFS过期数据清理脚本Spark任务提交脚本Hadoop日志错误分析脚本多节点批量执行命令脚本。每个脚本都包含用途说明、代码实现和关键点解释可直接在WSL环境中运行测试。此外还特别定制了一个WSL学习环境健康检查脚本可全面检测系统资源、目录结构、进程状态等帮助开发者快速掌握环境状况。这些脚本可组合成大数据工具箱提升日常开发效率。5 个高频率使用的功能性 Shell 脚本围绕大数据开发尤其是 Hadoop/Spark 生态在Ubuntu环境下的实际场景给出5 个高频率使用的功能性 Shell 脚本每个都带用途代码关键点解释。适合你当前的WSL Ubuntu环境边学边改。脚本 1HDFS / Hadoop 集群健康检查最常用用途一键检查 Hadoop 关键进程是否存活、HDFS 空间、是否进入安全模式。bash#!/bin/bash # check_hadoop.sh - Hadoop 集群健康检查 echo Hadoop 进程状态 for service in NameNode DataNode ResourceManager NodeManager do if ps -ef | grep -v grep | grep -q $service; then echo ✅ $service is running else echo ❌ $service is NOT running fi done echo echo HDFS 整体空间 hdfs dfsadmin -report | grep -E Configured Capacity|DFS Used|DFS Remaining|DFS Used% echo echo 安全模式状态 hdfs dfsadmin -safemode get使用方式bashchmod x check_hadoop.sh ./check_hadoop.sh脚本 2批量清理 HDFS 过期数据运维必用用途删除 HDFS 中超过 N 天的特定目录数据避免小文件堆积。bash#!/bin/bash # clean_old_hdfs_data.sh DAYS_AGO7 HDFS_PATH/user/hadoop/temp_logs echo 删除 ${HDFS_PATH} 中修改时间超过 ${DAYS_AGO} 天的数据... hdfs dfs -ls -R ${HDFS_PATH} | \ awk {print $6 $8} | \ while read mtime path do # 将 HDFS 时间戳转成秒需 date -d 支持WSL 需注意 file_sec$(date -d $mtime %s 2/dev/null) now_sec$(date %s) diff_days$(( (now_sec - file_sec) / 86400 )) if [ $diff_days -gt $DAYS_AGO ]; then echo 删除 $path已有 ${diff_days} 天 hdfs dfs -rm -r -skipTrash $path fi done⚠️ WSL 中date -d可能兼容性不如纯 Linux建议先在测试目录验证。脚本 3Spark 任务一键提交带环境变量用途封装spark-submit自动加载环境变量、JAR 路径、资源参数。bash#!/bin/bash # run_spark_job.sh export HADOOP_CONF_DIR/etc/hadoop/conf export SPARK_HOME/opt/spark export PATH$SPARK_HOME/bin:$PATH APP_JAR/home/mumu/bigdata/spark_jobs/etl_demo.jar MAIN_CLASScom.bigdata.ETLRunner INPUT_PATH/user/hadoop/input/data.parquet OUTPUT_PATH/user/hadoop/output/result_$(date %Y%m%d_%H%M%S) spark-submit \ --master yarn \ --deploy-mode client \ --driver-memory 2g \ --executor-memory 4g \ --num-executors 4 \ --class ${MAIN_CLASS} \ ${APP_JAR} \ --input ${INPUT_PATH} \ --output ${OUTPUT_PATH} if [ $? -eq 0 ]; then echo ✅ Spark 任务成功结果目录${OUTPUT_PATH} else echo ❌ Spark 任务失败请检查日志 exit 1 fi脚本 4分析 Hadoop 日志中 ERROR 频率awk 实战用途统计 YARN / HDFS 日志中各种 ERROR 的出现次数快速定位异常类型。bash#!/bin/bash # analyze_logs.sh LOG_DIR/var/log/hadoop/hdfs echo 统计最近 7 天修改的 .log 文件中的错误类型 find ${LOG_DIR} -name *.log -mtime -7 -exec cat {} \; | \ grep -E ERROR|FATAL | \ awk -F : {print $2} | \ sort | uniq -c | sort -rn | head -20脚本 5多节点批量执行命令跳板机常用用途在多个大数据节点上批量执行同一命令无密码 SSH 为前提。bash#!/bin/bash # batch_cmd.sh NODES(node01 node02 node03) CMD$1 if [ -z $CMD ]; then echo 用法: $0 命令 exit 1 fi for node in ${NODES[]}; do echo ${node} ssh hadoop${node} $CMD echo done使用示例bash./batch_cmd.sh df -h ./batch_cmd.sh jps如何把以上脚本串成一个“大数据工具箱”bashmkdir -p ~/bigdata/scripts # 把上面每个脚本存成对应文件 chmod x ~/bigdata/scripts/*.sh # 可选加入 PATH echo export PATH$PATH:$HOME/bigdata/scripts ~/.bashrc source ~/.bashrc重点总结面试/考试易考场景关键命令或技术点Hadoop 进程检查ps -ef | grep NameNodeHDFS 空间hdfs dfsadmin -reportSpark 提交spark-submit --master yarn ...按时间过滤文件find -mtime -7日志高频错误统计grep ERROR | sort | uniq -c | sort -rnSSH 批量执行ssh userhost cmd日期变量$(date %Y%m%d)如果你愿意下一步我可以帮你把这些脚本改成CentOSnode100也能通用的版本或针对你WSL 实际目录结构定制一个“学习版健康检查脚本”针对我的 WSL 实际目录结构定制一个“学习版健康检查脚本”下面给你定制一个专门用于你当前 WSL Ubuntu 环境的健康检查脚本。脚本check_wsl_env.sh#!/bin/bash # check_wsl_env.sh - WSL Ubuntu 学习环境健康检查脚本 # 适用环境mumuMuJinqiu (WSL Ubuntu) # 颜色定义 RED\033[0;31m GREEN\033[0;32m YELLOW\033[1;33m BLUE\033[0;34m NC\033[0m # No Color # 头部信息 echo echo WSL Ubuntu 学习环境健康检查 echo echo 用户名: $(whoami) echo 主机名: $(hostname) echo 当前目录: $(pwd) echo 检查时间: $(date %Y-%m-%d %H:%M:%S) echo # 1. 系统信息 echo echo -e ${BLUE} 1. 系统信息${NC} echo ---------------------------------------- if [ -f /etc/os-release ]; then source /etc/os-release echo 发行版: $NAME $VERSION else echo 发行版: 无法获取 fi echo 内核版本: $(uname -r) echo 架构: $(uname -m) # 2. 内存使用 echo echo -e ${BLUE} 2. 内存使用情况${NC} echo ---------------------------------------- free -h # 3. 磁盘使用 echo echo -e ${BLUE} 3. 磁盘使用情况${NC} echo ---------------------------------------- df -h ~ | grep -v Filesystem # 4. 当前目录大小 echo echo -e ${BLUE} 4. 当前目录占用${NC} echo ---------------------------------------- du -sh . 2/dev/null || echo 无法统计权限不足 # 5. 重点目录检查 echo echo -e ${BLUE} 5. 学习目录检查${NC} echo ---------------------------------------- # 检查 bigdata 目录 if [ -d ~/bigdata ]; then echo -e ${GREEN}✅${NC} ~/bigdata 目录存在 BIGDATA_SIZE$(du -sh ~/bigdata 2/dev/null | cut -f1) echo 大小: $BIGDATA_SIZE else echo -e ${RED}❌${NC} ~/bigdata 目录不存在建议创建 fi # 检查 test 目录 if [ -d ~/bigdata/2026/test ]; then echo -e ${GREEN}✅${NC} ~/bigdata/2026/test 目录存在 FILE_COUNT$(find ~/bigdata/2026/test -type f 2/dev/null | wc -l) echo 文件数量: $FILE_COUNT else echo -e ${YELLOW}⚠️${NC} ~/bigdata/2026/test 目录不存在 fi # 检查 scripts 目录 if [ -d ~/bigdata/scripts ]; then echo -e ${GREEN}✅${NC} ~/bigdata/scripts 目录存在 SCRIPT_COUNT$(find ~/bigdata/scripts -name *.sh 2/dev/null | wc -l) echo 脚本数量: $SCRIPT_COUNT else echo -e ${YELLOW}⚠️${NC} ~/bigdata/scripts 目录不存在可存放自定义脚本 fi # 6. 进程检查 echo echo -e ${BLUE}⚙️ 6. 后台进程检查${NC} echo ---------------------------------------- # 检查是否有 Cursor 进程 CURSOR_COUNT$(ps -ef 2/dev/null | grep -c cursor-server | grep -v grep) if [ $CURSOR_COUNT -gt 0 ]; then echo -e ${YELLOW}⚠️${NC} Cursor 远程服务进程数: $CURSOR_COUNT else echo -e ${GREEN}✅${NC} 无 Cursor 后台进程 fi # 检查是否有 node 进程排除 cursor NODE_COUNT$(ps -ef 2/dev/null | grep node | grep -v cursor | grep -v grep | wc -l) if [ $NODE_COUNT -gt 0 ]; then echo -e ${YELLOW}⚠️${NC} 其他 Node.js 进程数: $NODE_COUNT echo 可能是你自己启动的项目 else echo -e ${GREEN}✅${NC} 无其他 Node.js 进程 fi # 7. 环境变量 echo echo -e ${BLUE} 7. 关键环境变量${NC} echo ---------------------------------------- echo PATH 前3项: echo $PATH | tr : \n | head -3 | sed s/^/ / echo echo JAVA_HOME: ${JAVA_HOME:-未设置} echo HADOOP_HOME: ${HADOOP_HOME:-未设置} echo SPARK_HOME: ${SPARK_HOME:-未设置} # 8. 网络端口检查 echo echo -e ${BLUE} 8. 常用端口监听状态${NC} echo ---------------------------------------- check_port() { local port$1 local name$2 if ss -tln 2/dev/null | grep -q :$port ; then echo -e ${GREEN}✅${NC} $name ($port) 正在监听 else echo -e ${RED}❌${NC} $name ($port) 未监听 fi } check_port 22 SSH check_port 3306 MySQL check_port 8080 Tomcat/Proxy check_port 3000 Node.js 开发服务器 # 9. 可用命令检查 echo echo -e ${BLUE} 9. 常用命令可用性${NC} echo ---------------------------------------- check_cmd() { local cmd$1 if command -v $cmd /dev/null; then echo -e ${GREEN}✅${NC} $cmd else echo -e ${RED}❌${NC} $cmd fi } check_cmd java check_cmd python3 check_cmd node check_cmd npm check_cmd git check_cmd curl check_cmd wget check_cmd mysql check_cmd hadoop # 10. 学习进度 echo echo -e ${BLUE} 10. 学习进度建议自填${NC} echo ---------------------------------------- if [ -f ~/.learning_tracker ]; then cat ~/.learning_tracker else echo 未设置学习追踪文件 echo 可创建 ~/.learning_tracker 记录学习进度 fi # 结尾 echo echo echo -e ${GREEN}✅ 检查完成${NC} echo 使用方法1. 创建脚本bash# 进入你的工作目录 cd ~/bigdata/2026/test # 创建脚本文件 nano check_wsl_env.sh # 或 vim check_wsl_env.sh # 把上面完整脚本内容粘贴进去 # 保存并退出nano: CtrlX, Y, Enter2. 添加执行权限bashchmod x check_wsl_env.sh3. 运行脚本bash./check_wsl_env.sh预期输出示例 WSL Ubuntu 学习环境健康检查用户名: mumu 主机名: MuJinqiu 当前目录: /home/mumu/bigdata/2026/test 检查时间: 2026-05-15 14:30:00 1. 系统信息 ---------------------------------------- 发行版: Ubuntu 22.04.5 LTS 内核版本: 5.10.16.3-microsoft-standard-WSL2 架构: x86_64 2. 内存使用情况 ---------------------------------------- total used free shared buff/cache available Mem: 15G 2.5G 10G 200M 2.5G 12G Swap: 2.0G 0B 2.0G 3. 磁盘使用情况 ---------------------------------------- /dev/sda 250G 45G 205G 18% /home 4. 当前目录占用 ---------------------------------------- 128K . 5. 学习目录检查 ---------------------------------------- ✅ ~/bigdata 目录存在大小: 450M ✅ ~/bigdata/2026/test 目录存在文件数量: 12 ⚠️ ~/bigdata/scripts 目录不存在可存放自定义脚本 ⚙️ 6. 后台进程检查 ---------------------------------------- ⚠️ Cursor 远程服务进程数: 2 ⚠️ 其他 Node.js 进程数: 0 可能是你自己启动的项目 7. 关键环境变量 ---------------------------------------- PATH 前3项: /home/mumu/.local/bin /usr/local/sbin /usr/local/bin JAVA_HOME: 未设置 HADOOP_HOME: 未设置 SPARK_HOME: 未设置 8. 常用端口监听状态 ---------------------------------------- ✅ SSH (22) 正在监听 ❌ MySQL (3306) 未监听 ❌ Tomcat/Proxy (8080) 未监听 ❌ Node.js 开发服务器 (3000) 未监听 9. 常用命令可用性 ---------------------------------------- ❌ java ✅ python3 ✅ node ✅ npm ✅ git ✅ curl ✅ wget ❌ mysql ❌ hadoop 10. 学习进度建议自填 ---------------------------------------- 未设置学习追踪文件可创建 ~/.learning_tracker 记录学习进度 ✅ 检查完成可选添加学习进度追踪bash# 创建学习进度文件 cat ~/.learning_tracker EOF 大数据学习进度 ✅ Linux 基础命令 ✅ Shell 脚本基础 ⏳ Hadoop 入门 ⏳ HDFS 操作 ❌ MapReduce ❌ Hive ❌ Spark 最后更新: 2026-05-15 EOF再次运行./check_wsl_env.sh第10部分就会显示你的学习进度。./check_wsl_env.sh脚本扩展建议你想添加的功能可加入的检查项检查磁盘空间是否超过80%df -h | awk NR1 $50 80检查系统负载uptime | awk {print $10,$11,$12}检查可更新的软件包数量apt list --upgradable 2/dev/null | wc -l检查某个服务是否运行systemctl is-active --quiet ssh echo 运行中总结这个脚本会帮你全面了解当前 WSL 环境的状态包括系统资源、目录结构、进程、命令可用性。每次学习前跑一遍能快速发现环境问题。

DeepSeek开源模型真·省钱清单（含量化精度损失对照表+显存占用速查矩阵），工程师私藏版今日限时解密

更多请点击： https://intelliparadigm.com 第一章：DeepSeek开源模型真省钱清单（含量化精度损失对照表显存占用速查矩阵），工程师私藏版今日限时解密量化策略选型决策树面对 DeepSeek-R1-7B 与 DeepSeek-Coder-33B 等…

2026/5/15 22:45:45 阅读更多

【机器学习】从猫到万物：揭秘对抗攻击如何“欺骗”AI视觉

1. 当AI把猫认成烤面包机：对抗攻击的魔法世界想象一下这个场景：你手机里的AI相册明明能准确识别你家主子的照片，但当你给猫照片加上一些肉眼根本看不出的"魔法粉末"后，系统突然坚信这是台烤面包机，还给出99…

2026/5/15 22:45:25 阅读更多

别再硬啃毕业论文！okbiye 的 AI 写作功能，把终稿流程给你拆明白了

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 打开 okbiye 的毕业论文写作页面时，我第一反应是：原来论文这件事，真的可以不用像拆盲盒一样瞎摸了。没…

2026/5/15 22:45:04 阅读更多

别再只会用zip了！Ubuntu下tar.gz、tar.bz2压缩命令实战对比与选型指南

Ubuntu压缩格式终极指南：从zip到tar.gz/bz2的深度性能对决在Linux世界中，文件压缩与归档是每位开发者都绕不开的日常操作。面对众多压缩格式，很多用户会习惯性选择zip——这个在Windows世界占据统治地位的格式。但当你需要在Ubuntu服务器上处…

2026/5/15 23:36:42 阅读更多

RGMII接口下1000M/100M/10M以太网帧格式的时钟与数据位宽解析

1. RGMII接口基础与速率分类 RGMII（Reduced Gigabit Media Independent Interface）是以太网MAC层与PHY层之间最常用的接口标准之一。它最大的特点是在保持信号引脚数量的同时，通过技术手段实现了千兆速率的传输。与GMII接口相比，R…

2026/5/15 23:36:22 阅读更多

在 Taotoken 上观测多模型 API 调用用量与成本明细

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在 Taotoken 上观测多模型 API 调用用量与成本明细对于使用多个大模型 API 的开发者而言，清晰、透明地掌握调用情况和…

2026/5/15 23:35:21 阅读更多

Taotoken平台OpenAI兼容API调用基础教程与Python示例

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken平台OpenAI兼容API调用基础教程与Python示例对于刚接触Taotoken的Python开发者而言，最迫切的需求往往是快速验…

2026/5/15 23:34:21 阅读更多

BetaFlight飞控AOCODARC-F7MINI固件编译实战：从环境搭建到烧录验证

1. 认识AOCODARC-F7MINI飞控与BetaFlight固件 AOCODARC-F7MINI是一款基于STM32F722RET6主控的微型飞控，重量仅6克却集成了MPU6500陀螺仪、BMP280气压计和16MB黑匣子存储。这类飞控板在穿越机圈子里特别受欢迎，主要因为它的高性价比和紧凑设计。我自己玩穿…

2026/5/15 23:34:21 阅读更多

SystemVerilog与OVM在现代芯片验证中的核心价值与实践

1. SystemVerilog与OVM在现代验证中的核心价值集成电路设计在过去几十年经历了翻天覆地的变化，从最初的晶体管级设计发展到如今的系统级设计。然而验证方法却长期停滞在基于输入/输出向量比对的传统模式。随着设计复杂度呈指数级增长，这种验证方式已经无…

2026/5/15 23:34:21 阅读更多

【2026】新高考英语大纲词汇表3500个电子版PDF（含正序版、乱序版和默写版）

高中英语大纲词汇表（2026年版）内容说明词汇收录标准严格遵循高中英语教学大纲要求，精选3500个核心词汇，全面覆盖高中阶段英语学习的基础词汇与进阶词汇。版本分类及功能版本类型编排特点主要功能正序版按字母顺序排列系统…

2026/5/15 0:01:17 阅读更多

【最新v2.7.1 版本】零代码无命令！OpenClaw 零基础快速部署保姆级实战教程

OpenClaw（小龙虾）Windows 一键部署保姆级教程 | 10 分钟搭建专属数字员工前言 2026 年开源圈热门 AI 智能体 OpenClaw（昵称小龙虾），GitHub 星标突破 28 万，凭借本地运行零代码操作智能自动执行收获大…

2026/5/15 0:01:17 阅读更多

别再只用HashMap了！用Java BitSet和布隆过滤器处理亿级数据去重，内存省了90%

亿级数据去重的终极武器：Java BitSet与布隆过滤器实战手册当你的JVM内存被一个简单的用户ID去重任务撑爆时，当你的日志分析系统因为HashSet的过度内存消耗而崩溃时，是时候重新审视那些被我们忽视的空间压缩神器了。本文将带你深入两种能够将…

2026/5/15 0:01:38 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/14 23:29:16 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/15 0:06:09 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/15 14:41:26 阅读更多

相关文章

DeepSeek开源模型真·省钱清单（含量化精度损失对照表+显存占用速查矩阵），工程师私藏版今日限时解密

【机器学习】从猫到万物：揭秘对抗攻击如何“欺骗”AI视觉

别再硬啃毕业论文！okbiye 的 AI 写作功能，把终稿流程给你拆明白了

别再只会用zip了！Ubuntu下tar.gz、tar.bz2压缩命令实战对比与选型指南

RGMII接口下1000M/100M/10M以太网帧格式的时钟与数据位宽解析

在 Taotoken 上观测多模型 API 调用用量与成本明细

Taotoken平台OpenAI兼容API调用基础教程与Python示例

BetaFlight飞控AOCODARC-F7MINI固件编译实战：从环境搭建到烧录验证

SystemVerilog与OVM在现代芯片验证中的核心价值与实践

【2026】新高考英语大纲词汇表3500个电子版PDF（含正序版、乱序版和默写版）

【最新v2.7.1 版本】零代码无命令！OpenClaw 零基础快速部署保姆级实战教程

别再只用HashMap了！用Java BitSet和布隆过滤器处理亿级数据去重，内存省了90%

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥