Hadoop Streaming教程

发布时间：2026/6/10 1:35:22

0 软件版本 Linux 版本OpenEuler 24.03 SP2 LTS Hadoop版本hadoop3.4.1 Python版本python3.8.10 VSCode版本vscode1.98.0 参考链接https://bbs.huaweicloud.com/blogs/300640x. Hadoop Streaming简介x.1 概念随着数字媒体、物联网等发展的出现每天产生的数字数据量呈指数级增长。这种情况给创建下一代工具和技术来存储和操作这些数据带来了挑战。这就是 Hadoop Streaming 的用武之地下面给出的图表描绘了从 2013 年起全球每年产生的数据增长情况。 IDC 估计到 2025 年每年产生的数据量将达到 180 Zettabytes\nIBM 表示每天有近 2.5 千万字节的数据被创建其中 90% 的世界数据是在过去两年中创建的存储如此庞大的数据量是一项具有挑战性的任务。Hadoop 可以比传统的企业数据仓库更有效地处理大量结构化和非结构化数据。它跨分布式计算机集群存储这些庞大的数据集。Hadoop Streaming 使用 MapReduce 框架该框架可用于编写应用程序来处理海量数据。由于 MapReduce 框架基于 Java您可能想知道如果开发人员没有 Java 经验他/她如何工作。好吧开发人员可以使用他们喜欢的语言编写 mapper/Reducer 应用程序而无需掌握太多 Java 知识使用Hadoop Streaming而不是切换到 Pig 和 Hive 等新工具或技术。x.2什么是 Hadoop 流Hadoop Streaming 是 Hadoop 发行版附带的实用程序。它可用于执行大数据分析程序。Hadoop 流可以使用 Python、Java、PHP、Scala、Perl、UNIX 等语言执行。该实用程序允许我们使用任何可执行文件或脚本作为映射器和/或化简器来创建和运行 Map/Reduce 作业。例如//ℎ\n\n\n\n\n\n\n\n\n\n\n/\n\n\n\n/\nℎ\n\n\n\n\n\n\n\n\nHADOOP_HOME/hadoop-streaming.jar-input myInputDirs-输出我的输出目录-文件夹/垃圾箱/猫-减速器/bin/wc\n1 运行Python文件1.1 启动 hadoop 如果参照 hadoop 安装教程配置了环境变量可以在任何目录下启动 hadoop\n1.2 新建 python 文件从 VSCode 快捷方式启动File - Open Folder选中 home/mapreduce 目录。 (新建mapreduce目录)\n注意写完py文件要保存File-saveimport sys#Word Count Example# input comes from standard input STDIN\nfor line in sys.stdin: line line.strip() #remove leading and trailing whitespaces words line.split() #split the line into words and returns as a list for word in words: #write the results to standard output STDOUT print(‘%s\\t%s’ % (word,1) ) #Emit the word选中 mapreduce 目录新建文件 reducer.py并输入以下内容\n选中 mapreduce 目录新建文件 reducer.py并输入以下内容\nimport sysfrom operator import itemgetter# using a dictionary to map words to their countscurrent_word Nonecurrent_count 0word None# input comes from STDINfor line in sys.stdin: line line.strip() word,count line.split(‘\\t’,1) try: count int(count) except ValueError: continue if current_word word: current_count count\nelse: if current_word: print( ‘%s\\t%s’ % (current_word, current_count)) current_count count current_word wordif current_word word:print(‘%s\\t%s’ % (current_word,current_count) )1.3 运行 python 文件程序在 terminal 终端中新建word.txt文件 cd ~ cd mapreduce vim word.txt\n插入以下内容Cat mouse lion deer Tiger lion Elephant lion deer“wq”保存退出然后在 terminal 终端中查看 python 文件程序 cd ~ cd mapreducelscat word.txtcat mapper.pycat reducer.py\n1.4 运行映射器我们可以在本地文件例如word.txt上运行 mapper 和 reducer。为了在 Hadoop 分布式文件系统 (HDFS) 上运行 Map 和 Reduce我们需要Hadoop Streaming jar。所以在我们在 HDFS 上运行脚本之前让我们在本地运行它们以确保它们工作正常。cat word.txt | python mapper.py\ncat word.txt | python mapper.py | sort -k1,1 | python3 reducer.py\n2 运行MapReduce2.1 在Hadoop上运行Python代码在我们在 Hadoop 上运行 MapReduce 任务之前将本地数据word.txt复制到 HDFShdfs dfs -put word.txt /user/hadoop2.2 复制jar文件的路径ls /usr/local/hadoop/share/hadoop/tools/lib/ls /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar\n2.3 运行MapReduce作业命令如下hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.4.1.jar -file mapper.py -mapper “python mapper.py” -file reducer.py -reducer “python reducer.py” -input word.txt -output /user/hadoop/NewCount\nHadoop 为统计和信息提供了一个基本的 Web 界面。当 Hadoop 集群运行时在浏览器中打开 http://localhost:9870/explorer.html#/user/hadoop/NewCount。\n我们可以使用这个命令在终端上看到输出hadoop fs -cat /user/hadoop/NewCount/part-00000\n您现在已经学会了如何使用 Hadoop Streaming 执行用 Python 编写的 MapReduce 程序文件删除命令hadoop dfs -rm -r /文件目录示例hadoop dfs -rm -r /user/hadoop/NewCount

深夜查完账单，我才发现家里连一条“心跳线”都没留

多年前一个冬天，凌晨一点多，俩小子总算都睡了。北京的冬天有个特点，屋里再暖，脚底还是凉的。我窝在书房那张旧得皮都裂了的单人沙发上，手机屏幕的光打在脸上。刚随手翻了翻这个月的账单，后背一阵一阵发凉。…

2026/6/10 1:35:22 阅读更多

AI技能-自我改进代理 (Self-Improving Agent) 一

技能概述这是一个用于 AI 编码助手的持续自我改进技能，通过记录学习、错误和功能请求，帮助代理不断提升能力。核心功能 1. 学习记录错误日志：记录命令失败、异常和意外行为知识学习：记录用户纠正、知识缺口和最佳实践功能请求：记录用户需求和新功能建议 2. 智能…

2026/6/10 1:35:02 阅读更多

苹果2026年WWDC大更新：Siri升级为AI助手，Apple Intelligence深度集成，库克谢幕！

01 SiriSiri是整场WWDC 2026的主角。软件工程高级副总裁克雷格费德里吉把Siri AI称为“完全新版本”，由Apple Intelligence驱动。苹果官方新闻稿称，现在的Siri能力更强、更会对话，具备个人上下文理解、广泛的世界知识和屏幕感知能力&#xff…

2026/6/10 1:33:41 阅读更多

从零吃透 JSP 与 Servlet：Java Web 开发的基石与实战

一、开篇：为什么你必须了解 JSP 与 Servlet？ 在 Java Web 开发的世界里，Servlet 是一切 Web 服务的底层骨架，而 JSP 则是 Servlet 的“前端友好版”封装。无论你未来使用 Spring Boot、Spring MVC 还是其他 Web 框架&#xff0c…

2026/6/10 6:42:34 阅读更多

计算机专业就业：大模型时代学生该怎么准备：从踩坑到可复用方案

这篇不先堆名词。我们把《计算机专业就业：大模型时代学生该怎么准备》拆成几级台阶，看完至少知道下一步该学什么、该练什么。摘要这篇面向计算机专业学生、应届生和转专业学习者，但不会把“计算机专业就业：大模型时代学生该怎么准…

2026/6/10 6:41:54 阅读更多

AI智能体开发从入门到落地实战指南核心流程与常见避坑技巧全解析

AI智能体开发从入门到落地实战指南核心流程与常见避坑技巧全解析随着大模型技术的成熟，AI智能体已经从概念验证阶段走入产业落地，尤其是在AI客服、AI售前、AI售后等To C服务场景，能够替代70%以上的重复性人工咨询，大幅降低运营成…

2026/6/10 6:41:34 阅读更多

PostGIS数据导入避坑指南：从WKT、GeoJSON到EWKB，Geometry类型转换的5个常见错误

PostGIS数据导入避坑指南：从WKT、GeoJSON到EWKB，Geometry类型转换的5个常见错误当你在深夜加班处理空间数据导入时，突然弹出的"Invalid geometry"错误提示可能是最令人崩溃的时刻之一。PostGIS作为地理信息系统中最强大的开源空间数…

2026/6/10 6:40:33 阅读更多

Elsevier投稿系统保姆级教程：从上传LaTeX源文件到最终Approve的全流程拆解

Elsevier投稿系统LaTeX投稿全流程指南：从文件准备到最终确认的深度解析第一次使用Elsevier投稿系统时，面对复杂的界面和众多选项，许多研究者都会感到手足无措。特别是使用LaTeX投稿时，从文件准备到最终确认的每个环节都可能隐藏着…

2026/6/10 6:38:52 阅读更多

SystemVerilog文件读写避坑指南：从$fopen到$fclose，新手必看的5个实战细节

SystemVerilog文件读写避坑指南：从$fopen到$fclose的5个实战细节刚接触SystemVerilog验证的工程师，往往会在文件操作这个看似简单的环节栽跟头。记得我第一次尝试用$fopen读取测试数据时，因为忽略了文件打开模式的区别，导致整个测…

2026/6/10 6:37:51 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…