
hadoop
吾常自闭
日常自闭
展开
-
Hadoop——MapReduce解决实际问题
目的: 1.通过理论联系实际,引导学生依据所掌握的Java语言程序设计和分布式编程框架知识,在理解MapReduce运行机制的基础上,研究分析和解决实际问题方案 2.掌握自主学习的方法,加深相关知识点的理解,提高分析问题的能力以及编码、调试的能力,促进课程目标的达成。 内容: 1.单词统计:利用倒排索引实现每个单词在不同文件中出现的次数 2.手机上网流量统计:按照手机号码分别统计上网的上下行流量,并按照总流量从大到小排序 3.社交粉丝数据分析:根据已存在的qq好友列表数据,求出哪些人两两之间有共原创 2020-06-20 22:37:53 · 810 阅读 · 0 评论 -
Hadoop期末总结
1、根据需求,为公司规划搭建集群的具体方案。 2、大数据的特点,分析处理日志大数据的基本流程。 大数据的基本处理步骤: 数据获取 flume 数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据 数据清洗 mapreduce 清除不需要,错误,无效的数据 数据存储 hdfs 性能,可用,可靠,成本等方面考量 数据处理 hive 按业务需求处理 数据分享 sqoop,kettle 可视化展示,最大化利用数据价值 3、写出启动集群和关闭集群的操作过程...原创 2020-06-21 15:45:32 · 2679 阅读 · 3 评论