文章目录 一、利用Java程序实现词频统计 (一)创建Java项目 (二)创建数据文件 (三)创建词频统计类 (四)运行程序,查看结果 二、利用Scala程序实现词频统计 (一)创建Scala项目 (二)创建数据文件 (三)创建词频统计单例对象 (四)运行程序,查看结果 三、利用Python程序实现词频统计 (一)创建Python项目 (二)创建数据文件 (三)使用Python字典实现词频统计 (四)使用collections的Counter实现词频统计 四、利用Akka和Scala实现词频统计 (一)创建Scala项目 (二)创建数据文件 (三)创建AKKAUtils单例对象,提供函数获取akka配置 (四)创建WcInfo1,封装从WcDriver发往WcMapper的数据 (五)创建WcInfo2,封装从WcMapper发往WcReducer的数据 (六)创建WcDriver单例对象 (七)创建WcMapper单例对象 (八)创建WcReducer单例对象 (九)启动程序,查看结果 五、利用MapReduce来实现词频统计 (一)启动HDFS服务 (二)启动YARN服务 (三)上传数据文件到HDFS (四)创建Maven项目 (五)添加相关依赖 (六)创建日志属性文件 (七)创建词频统计映射器 (八)创建词频统计归约器 (九)创建词频统计驱动器 (十)启动词频驱动器,查看结果 六、利用Hive实现词频统计 (一)启动HDFS服务 (二)启动YARN服务 (三)使用HDFS上的数据文件 (四)启动Hive Metastore服务 (五)启动Hive客户端 (六)创建外部表 (七)进行词频统计 七、利用Storm实现词频统计 (一)解决思路 1、LineSpout 2、SplitLineBolt 3、WordCountBolt 4、ReportBolt 5、WordCountTopology (二)实施步骤 1、创建Java项目 2、给项目添加Storm库 3、创建行喷嘴类 4、创建行切分处理类 5、创建词频统计处理类 6、创建报告处理类 7、创建词频拓扑类 8、创建数据文件 9、运行程序,查看结果 八、利用Spark RDD实现词频统计 (一)在Scala版Spark Shell里完成任务 1、分步实施 2、一步完成 (一)在Python版Spark Shell里完成任务 1、分步实施 2、两步完成 九、利用Spark SQL实现词频统计 (一)在Spark Shell里完成任务 (二)在IDEA里编写Scala程序完成任务 十、利用Spark Streaming实现词频统计 (一)提出任务 (二)完成任务 1、在master虚拟上安装nc 2、创建Maven项目 3、添加依赖与构建插件 4、创建日志属性文件 5、创建流式词频统计单例对象 6、在master虚拟机上启动nc 7、启动程序,查看结果 十一、利用Flink实现词频统计 (一)Java版Flink实现词频统计 (二)Scala版Flink实现词频统计 1948 年 5 月 15 日:Windows 95 启动音乐设计者 Brian Eno 出生 数据文件 - test.txt 一、利用Java程序实现词频统计 (一)创建Java项目 创建Java项目 - JavaWordCount (二)创建数据文件 在项目根目录创建数据文件 - test.txt (三)创建词频统计类 创建net.hw.wc包,在包里创建WordCount类