5.2 初识Spark Streaming 本次实战旨在掌握 Spark Streaming 的核心原理及微批处理架构通过两个经典案例实现实时词频统计。首先基于 TCP Socket 数据源进行开发。在 IDEA 中搭建 Maven 与 Scala 环境配置SparkConf并创建StreamingContext设置 3 秒批次间隔。利用socketTextStream监听 Master 节点 9999 端口配合 NetCat 工具发送测试文本。程序通过flatMap、map及reduceByKey算子对 DStream 进行转换成功实现了网络数据的实时接收与聚合计算。其次扩展至 HDFS 文件系统监控场景。新建程序将批次间隔调整为 10 秒使用textFileStream方法持续扫描 HDFS 指定目录。通过模拟上传文件触发数据处理验证了系统对新文件的自动感知能力。整个实战完整演示了从环境构建、DStream 操作到结果输出的全流程帮助深入理解流式计算中“离散化流”的处理机制及多源数据接入方式。