5.4 图书热度实时排行榜实战 该实战项目构建了一个基于 Spark Streaming 的实时图书热度排行榜系统。首先通过CreateData模拟器程序定时每60秒从静态图书评分数据源BookRating.txt中随机抽取记录生成新的流式数据文件到D:/StreamingData/目录以此模拟持续不断的数据流入。接着BookRating实时计算程序启动创建StreamingContext并设置60秒的批处理间隔监控上述数据目录。程序解析每条流入数据提取书籍ID和评分。核心部分采用滑动窗口机制窗口大小2分钟滑动步长1分钟通过reduceByKeyAndWindow累加各书籍在窗口期内的评分总和作为“热度”。随后利用transform操作对每个批次的窗口结果进行排序和 Top 10 筛选。最终计算出的热门图书榜单一方面在控制台实时打印另一方面被转换为 DataFrame 并以带表头的 CSV 格式保存至 HDFS 的/bookrating/output/目录下文件名包含时间戳以区分不同时刻的结果实现结果的持久化存储与查看。