
Hadoop学习笔记
文章平均质量分 81
-无妄-
本人主要记录的是学习笔记和其他参考,持续学习中。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
---大数据入门学习笔记(壹) - 大数据概述
文章目录大数据故事大数据背景大数据基本概念大数据定义大数据4V特征大数据涉及到的技术大数据带来的技术挑战大数据带来的思维变革大数据故事电商把假货卖给了谁,后台通过个人的消费情况来推断每个人的消费额度,来推荐出相对应价格的产品。大数据背景当代社会中,科学,金融,零售,物联网,交通,社交网络等数据都是无时无刻在产生越来越大的,所以大数据是无处不在的。大数据基本概念大数据定义大数据量并不一...原创 2018-11-07 10:36:03 · 766 阅读 · 0 评论 -
CDH 5.15.2集群搭建(基于阿里云)
文章目录软件版本Cloudera Manger 架构虚拟机设置Step1:安装虚拟机(阿里云忽略此步骤)Step2:设置网络(针对自己搭建的虚拟机)Step3:设置hosts(后续操作均以root用户执行)Step4:关闭SELinux及防火墙(阿里云机器忽略此步骤)Step5: 设置ssh免密登录Step6: 设置ntp时间同步服务(阿里云无需同步)软件版本操作系统:centos 7.5 6...原创 2019-02-22 21:32:23 · 2541 阅读 · 1 评论 -
---大数据入门学习笔记(伍)- 分布式处理框架MapReduce
文章目录MapReduce概述MapReduce编程模型MapReduce编程模型之通过wordcount词频统计分析案例入门Map和Reduce阶段MapReduce执行步骤核心概念MapReduce架构MapReduce1.XMapReduce编程MapReduce概述MapReduce是一个易于编写应用程序的软件框架,该应用程序以一种可靠的、容错的方式,在大型的商品硬件集群(数千个节点)...原创 2018-11-17 13:45:31 · 1580 阅读 · 1 评论 -
大数据入门学习笔记(玖)- Hadoop整合Spring的使用
文章目录Spring Hadoop概述Spring Hadoop开发环境搭建及访问HDFSSpring Booti问HDFSSpring Hadoop概述官方链接http://spring.io/projects/spring-hadoop官方文档https://docs.spring.io/spring-hadoop/docs/2.5.0.RELEASE/reference/html/...原创 2018-11-22 20:36:23 · 459 阅读 · 0 评论 -
大数据入门学习笔记(陆)- 大数据数据仓库Hive
文章目录Hive产生背景及Hive是什么为什么要使用Hive及Hive发展历程Hive体系架构及部署架构Hive体系架构部署架构--测试环境部署架构--生产环境Hive环境搭建Hive基本使用Hive产生背景及Hive是什么Hive产生的背景MapReduce编程的不便性HDFS上的文件缺少SchemaHive是什么由Facebook开源,最初用于解决海量结构化的日志数据统计问题构...原创 2018-11-19 16:32:35 · 701 阅读 · 0 评论 -
大数据入门学习笔记(捌)- Hadoop项目实战
文章目录用户行为日志概述日志数据内容:数据处理流程项目需求测试功能实现用户行为日志概述用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击…)用户行为轨迹、流量日志日志数据内容:一行日志如下:117.35.88.11 - - [10/Nov/2016:00:01:02 +0800] “GET /article/ajaxcourserecommends?id=124 H...原创 2018-11-22 15:39:03 · 3740 阅读 · 1 评论 -
大数据入门学习笔记(柒)- Hadoop分布式集群搭建
环境介绍先准备好三台虚拟机或者服务器hadoop000:192.168.199.102hadoop001:192.168.199.247hadoop002:192.168.199.138三台都要更改hostname;每台设备不同内容:hostname设置: sudo vi /etc/sysconfig/network比如hadoop001:192.168.199.247设备NE...原创 2018-11-20 17:17:32 · 299 阅读 · 0 评论 -
---大数据入门学习笔记(肆)-分布式资源调度YARN
文章目录YARN产生背景YARN概述YARN架构YARN执行流程YARN环境搭建提交作业到YARN上执行YARN产生背景MapReduce1.x存在的问题:单点故障&节点压力大不易扩展,如下图:单点故障:整个集群里只有一个JobTracker,一旦挂掉,整个架构就无法完成作业运行节点压力大不易扩展:JobTracker要来自TaskTracker的rpc请求(心跳)和c...原创 2018-11-13 10:41:16 · 401 阅读 · 0 评论 -
---大数据入门学习笔记(贰)- 初识Hadoop
文章目录Hadoop概述Hadoop能做什么Hadoop核心组件分布式文件系统HDFS分布式文件系统HDDS资源调度系统YARN分布式计算框架MapReduceHadoop优势高可靠性扩展性其他Hadoop发展史Hadoop生态系统侠义Hadoop VS 广义HadoopHadoop发行版的选择学习建议官网地址: https://hadoop.apache.orgHadoop概述Hadoop...原创 2018-11-07 20:44:25 · 883 阅读 · 0 评论 -
---大数据入门学习笔记(叁)- 布式文件系统HDFS
文章目录HDFS概述及设计目标什么是HDFSHDFS的设计目标HDFS架构HDFS副本机制HDFS环境搭建HDFS shellJava API操作HDFS文件读写流程HDFS优缺点HDFS概述及设计目标如果让我们自己来设计一个分布式文件系统,咋办?下图是普通分布式文件系统什么是HDFSHadoop实现了一个分布式文件系统( Hadoop Distributed File System...原创 2018-11-10 12:07:57 · 1160 阅读 · 0 评论 -
Hadoop的shuffle--
Shuffle描述的是数据从Map端到Reduce端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程,大体流程如下:上图的Map的输出的文件被分片为红绿蓝三个分片,这个分片的就是根据Key为条件来分片的,分片算法可以自己实现,例如Hash、Range等,最终Reduce任务只拉取对应颜色的数据来进行处理,...转载 2019-03-13 09:01:39 · 575 阅读 · 0 评论