- 博客(12)
- 收藏
- 关注
原创 hive的知识总结
常用的语言 C C++ JAVA PHP NET C#RUBY GO Scale—spark(计算效率更高)scala+javahive的出现:1,只会sql的人也能处理大数据,2 ,不写mapreduce,就可以处理大数据关系型数据库—mysql orcal sqlserver—性能处理瓶颈因为以上这些数据库,不能够大量的处理数据,所以我们才会用hive 来替换他;非关系型数据库 r...
2019-06-19 23:17:40
169
原创 Zookeeper的知识点总结
hadoop的学习已经告一段落了,下面来我们来学习下一阶段的知识:Zookeeper1,角色 状态leader leading —继承人follower following —跟从但是有想法的 followerobserver...
2019-06-18 21:25:23
181
原创 总结:hadoop生态圈
1:common2:hdfs----分布式存储(多节点协同工作)2.1 角色— NN DN SNN2.2 工作机制、读写机制----block块(164M 2 128)为了数据的安全—备份机制为了增强传输效率----pipeline管道机制2.3 NN工作太繁忙,为了而节省他的时间----SNN只是热备,不能替代NN—把NN中的元数据备份到磁盘上(edits.log fsi...
2019-06-18 08:07:08
189
原创 Hadoop学习:WordCount程序的实现与总结
开篇语:这几天开始学习Hadoop,花费了整整一天终于把伪分布式给搭好了,激动之情无法言表······搭好环境之后,按着书本的代码,实现了这个被誉为Hadoop中的HelloWorld的程序–WordCount,以此开启学习Hadoop的篇章。本篇旨在总结WordCount程序的基本结构和工作原理,有关环境的搭建这块,网上有很多的教程,大家可以自行找谷歌或百度。何为MapReduce:在...
2019-06-15 07:00:53
668
原创 mapreduce的工作原理分析
分布式计算的思想 ------合久必分,分久必合(哈哈)map reducceinput (输入) output(输出)MAP端的含义:注意:假设HDFS的block大小为64M,采用TextI...
2019-06-14 15:31:25
142
原创 HADOOP与eclipse的搭建及相关的API的使用方法
首先配置环境变量1)我的电脑 – 属性 里面的环境变量分别是用户变量和系统i变量:用户变量是针对不同用户的一个使用,切换用户之后新的用户可能无法继续使用,系统变量是针对整个电脑来进行使用的,所以我们要对系统变量进行设置;系统变量 -点击新建 --把你当时解压之后又的文件的绝对路径粘贴过来,变量名叫做HADOOP_HOME接着给你window下的用户修改名称为root,目的是和你lin...
2019-06-14 00:05:39
232
原创 关于伪分布式的搭建
配置免密登录(1)配置免密登录 node01->node01ssh-keygen -t rsassh-copy-id -i ~/.ssh/id_rsa.pub root@node011、上传文件ftp 使用命令rz-----yum install lrzsz -y2、解压tar -zxvf jdk3、配置环境变量export JAVA_HOME=/opt/softw...
2019-06-13 07:13:32
109
原创 linux常用命令
1重启网络服务service network restart2彻底删除用户userdel -r3查看网络状态4查询网卡信息ifconfig你会看到如下图所示:树状目录结构:以下是对这些目录的解释:/bin:bin是Binary的缩写, 这个目录存放着最经常使用的命令。/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件。/dev :...
2019-06-12 18:39:57
96
原创 SecondaryNamenode的分析
NN(主节点)描述数据的数据 --内存里为了保证元数据的安全—将内存中的数据存放到磁盘中----叫持久化当我们的集群因断电等特殊原因产生问题的时候,问题解决,重新开机,会去磁盘上读取元数据,恢复到断电前的状态;NN不能进行持久化的原因可以做:需求小,占用内存少,不影响计算效率不可以做:NN本身工作已经很多,有可能在持久化的过程中宕机;备注:SNN永远无法取代NN的位置,他只是NN的一个...
2019-06-12 00:04:14
162
原创 hdfs文件的存储
以block块的形式将大文件进行相应的存储1* 64M2*128M文件线性切割成块:偏移量offset(byte)block分散存储在集群节点中单一文件block大小一致,文件与文件可以不一致block可以设置副本数,副本分散在不同的节点中,副本数不要超过节点数量文件上传可以设置BLOCK大小和副本数已上传的文件block副本数可以调整,大小不变只支持一次写入多次读取 同一时刻只...
2019-06-11 00:30:34
446
原创 个人对大数据概念的理解(知识结构)
大数据的产生:为了解决数据量过大的问题1)垂直扩展 :增加自己的硬件设施 但设备终归有极限;2)横向扩展 :由多个服务器所一台一台连接起来的扩展方式,没有瓶颈,可以无限扩展,简单廉价的服务器或者PC端就可以大数据的起源(鼻祖):google 的三大论文GFS -------产生 HDFS分布式文件系统(分布式的存储)MapReduce ---------分布式的...
2019-06-10 14:54:29
1513
原创 lunix入门培训课程
在/var下创建sh文件夹,shell脚本在文件夹中编写1、脚本生成一个100以内的随机数,提示用户猜数字并将随即生成的数字显示2、使用read提示用户猜数字3、使用if判断用户猜数字的大小关系猜对了猜大了猜小了4、使用while循环输入#!/bin/bash while [ 1 ]doecho “请输入100以内的随机数”read ab=$(( $RANDOM ...
2019-06-09 21:43:44
145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人