4.8.1 利用Spark SQL实现词频统计 本实战教程演示使用 Apache Spark SQL 实现词频统计Word Count包含交互式操作和项目开发两种方式。针对给定文本数据如 “hello hadoop world” 等通过 DataFrame API 或纯 SQL 查询处理。核心步骤包括读取 HDFS 上的文本文件、使用explode和split函数拆分单词、按单词分组计数、按词频降序和单词升序排列ORDER BY count DESC, word ASC以解决相同词频时的排序不确定性问题。实战涵盖了从环境准备创建 HDFS 目录、上传文件、交互式代码编写两种方法、Maven 项目构建配置 Spark 依赖、Scala SDK、日志设置到最终结果输出控制台显示、保存至 HDFS的完整流程。