
大数据
文章平均质量分 75
你说_
欢迎大家关注小白菜!
github:https://github.com/yuanyi0510
个人博客:https://yuanyi0510.github.io/
展开
-
大数据Hadoop学习笔记(一)
大数据Hadoop2.xhadoop用来分析存储网路数据MapReduce:对海量数据的处理、分布式。思想————> 分而治之,大数据集分为小的数据集,每个数据集进行逻辑业务处理合并统计数据结果(reduce)运行模式:本地模式和yarn模式input——>map——>shuffle——>reduce——>outputshuffle:将结果进行排原创 2018-10-12 17:30:43 · 405 阅读 · 0 评论 -
大数据Hadoop学习笔记(二)
Single Node Setup官网地址1. 本地模式2.伪分布式模式************************* 本地模式 ****************************. grep input output ‘dfs[a-z.]+’ 运行mapreduce的例子,input是当前目录下的文件夹;output是运行输出结果储存的地方,并且在当前目录下没有...原创 2018-10-12 18:01:32 · 493 阅读 · 0 评论 -
大数据Hadoop学习笔记(三)
1.HDFS架构讲解2.NameNode启动过程3.YARN架构组建功能详解4.MapReduce 编程模型HDFS架构讲解源自谷歌的GFS论文HDFS:*抑郁扩展的分布式系统*运行在大量普通的链家机器上,提供容错机制*为大量用户提供性能不错的文件存储服务NameNode:单一节点。文件元素据的操作。副本存在位置由namenode决定,读取文件尽量让 用户先读取最近的副...原创 2018-10-12 18:36:41 · 279 阅读 · 0 评论 -
大数据Hadoop学习笔记(四)
MapReduce运行过程========step1 :inputInputFormat读取数据转换成<key, value>FileInputFormatTextInputFormatstep 2:mapModuleMappermap(KEYIN , VALUEIN, KEYOUT, VALUEOUT)默认情况下——>K...原创 2018-10-12 18:51:10 · 208 阅读 · 0 评论 -
大数据Hadoop学习笔记(五)
分布式部署本地模式Local Mode分布式Distribute Mode伪分布式一台机器运行所有的守护进程从节点DN和NM只有一个完全分布式有多个DN、NM在配置文件&amp;amp;HADOOP_HOME/etc/hadoop/slaves中配置三台机器:192.168.220.133 hdp-node-01 3g 1核CPU192.168.220....原创 2018-10-12 19:13:51 · 186 阅读 · 0 评论 -
集群的时间同步
找一台机器做时间服务器所有的机器与这台机器进行定时同步比如:每10分钟同步一次配置时间服务器(hdp-node-01):可参考博客下载安装ntpvi /etc/ntp.conf注释一下代码在/etc/sysconfig/ntpd文件中添加SYNC_HWCLOCK=yes启动ntpd服务 service ntpd start设置开机启动 chkconfig...原创 2018-10-12 19:21:18 · 758 阅读 · 0 评论 -
分布式服务框架zookeeper
一个开源的分布式的,为分布式应用提供协调服务的Apache项目提供一个简单的原语集合,以便于分布式应用可以在它之上构建更高层次的同步服务设计非常易于编程,它使用的是类似于文件系统那样的树形数据结构目的就是将分布式服务不在需要由于协作冲突而另外实现协作服务服务器节点一般为基数典型的应用场景zookeeper从设计模式的角度来看,是一个基于观察者模式设计的分布式服务管理框架,负责存储和...原创 2018-10-12 19:31:21 · 253 阅读 · 0 评论 -
大数据Hadoop学习笔记(六)
HDFS HA背景:在hadoop2.0之前,HDFS集群中的NameNode存在单点故障(SPOF)对于只有一个NameNode的集群,若NameNode机器出现故障,则整个集群将无法使用,直到NameNode重新启动NameNode主要在一下两方面影响集群:NM机器发生意外NM机器需要升级HDFS HA通过配置Active/Standby两个NM实现在集群中对NM的热备...原创 2018-10-13 14:59:18 · 432 阅读 · 0 评论