
大数据学习之路
IronWring_Fly
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从0开始,利用docker搭建一套大数据开发环境(一)
天才第一步,雀氏纸尿裤。那么大数据第一步是什么呢?先搭建一套开发环境。对于刚进入这个领域的同学来说,搭这套环境的过程可以学到很多东西,包括Linux的常用操作,如何设置配置文件,怎么使用linux的命令行,甚至,如果是在windows主机上使用虚拟机搭建环境的话,还能学到很多计算机网络等其他方面的基础知识。所以,亲手从0搭建一套大数据开发系统是非常有必要的。但是呢,这个过程也是非常痛苦的,堪称新人入门的一道拦路虎,不少人的学习热情,就在这第一步被生生浇灭了。。。所以,为了再次照亮你心中最初的那道光,我开原创 2020-12-06 18:15:26 · 1241 阅读 · 0 评论 -
Hadoop distcp命令(三)
Hadoop distcp命令(一)Hadoop distcp命令(二)DistCp的结构新版的DistCp可以分为以下几个部分:DistCp DriverCopy-listing generatorInput-formats 和 Map-Reduce components(1) DistCp DriverDistCp Driver部分的职责是:解析DistCp命令行中的参数,例如:OptionsParser (选项解析器)DistCpOptionsSwitch (DistCp原创 2020-10-12 10:29:17 · 2351 阅读 · 0 评论 -
Hadoop distcp命令(二)
Hadoop distcp命令(一)三、命令行选项标记描述注意事项-p[rbugpcaxt]r: replication b: block size u: user g: group p: permission c: checksum-type a: ACL x: XAttr t: timestamp当使用-update选项时,只有当文件大小不同时才会同步文件状态。如果指定了-pa选项,DistCp还是会保留权限,因为AC原创 2020-10-12 02:23:21 · 2128 阅读 · 1 评论 -
Hadoop distcp命令(一)
因为工作中涉及到了不同集群之间的数据拷贝问题,所以翻看了官方文档,为了能更好的吸收,特此将文档翻译如下。distcp 分布式拷贝一、总览DistCp (分布式拷贝)是一个用来进行数据拷贝的工具,不同的是,这个命令通常是在大规模集群内部和大规模集群之间使用。DistCp命令的拷贝过程本质依然是MapReduce任务,它通过MR的方式来实现拷贝过程中的数据分发、错误处理以及报告。该命令将文件和目录的列表作为map任务的输入,每个map任务都会复制原列表中指定路径下的文件。早期版本的DistCp在用法、原创 2020-10-09 21:29:33 · 12920 阅读 · 2 评论 -
-bash: /usr/local/src/jdk1.8.0_231/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录
如果配置完Java,显示-bash: /usr/local/src/jdk1.8.0_231/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录执行以下命令即可yum install glibc.i686原创 2019-12-19 08:35:09 · 986 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
在本机hadoop安装目录下etc文件夹下hadoop文件夹下找到log4j.properties文件,添加下面这句话即可vim /home/komean/workspace/hadoop/hadoop-2.7.7/etc/hadoop/log4j.properties log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR...原创 2019-12-19 08:33:40 · 389 阅读 · 0 评论 -
Java HotSpot(TM) Server VM warning: You have loaded library /usr/local/src/hadoop-2.6.5/lib/native/l
Java HotSpot™ Server VM warning: You have loaded library /usr/local/src/hadoop-2.6.5/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.I...原创 2019-12-19 08:29:54 · 1907 阅读 · 2 评论 -
Hive的数据倾斜问题
hive的数据倾斜一、现象作业已经完成了99%,就剩下1%,结果跑了很久,这大概率就是出现了数据倾斜。二、原因key值分布不均匀数据本身分布不均某些sql写的有问题建表的时候考虑不周三、解决方法利用参数调节hive.map.aggr = true , map端部分聚合,相当于combinerhive.groupby.skewindata=true当有数据倾斜...原创 2019-09-25 16:08:36 · 336 阅读 · 0 评论 -
Hive
hive是什么 hive是一个data warehouse software,数据仓库软件。他可以将类似SQL的HQL转译为mapreduce或spark等执行计划进行数据计算。hive的底层数据存储在HDFS上,数据的元信息维护在关系型数据库上,一般为MySQL。hive架构图hive的整体架构分为四个部分:用户接口包括命令行,web端,jdbc等元数据存储默认为derby数据...原创 2019-09-24 17:27:24 · 285 阅读 · 0 评论 -
hadoop的mapreduce(2)
map是映射,把文档映射成key-value的结构体,将数据读入,经过分区计算合并输出为k-v结构,如果有combiner会在对输出进行一次合并,使map的输出更加的紧凑。reduce阶段会把相同key的value进行合并,输出也是k-v结构体。 shuffle分为map端和reduce端,map端将文件读入,先写入缓存区,缓存区默认100M,缓存区写满了会溢出到磁盘,形成spill文件。...原创 2019-09-20 14:52:59 · 120 阅读 · 0 评论 -
hadoop 的 mapreduce(1)
参考资料:Difference between hadoop block Size and Input Splits in hadoop and why two parameter are there ?A Very Brief Introduction to MapReduce对于文件分片的过程,参考文献第一篇有专门论述这个问题。if input split is not...原创 2019-09-20 12:01:10 · 209 阅读 · 0 评论 -
Yarn的任务执行流程
流程 client向resource manager提交任务jobRM返回任务的提交路径以及job的idclient将任务资源提交到公共文件池中,并向RM汇报提交结果。RM将任务放入内部的任务队列中Node Manager通过心跳连接,获取到任务RM为任务创建执行容器RM为容器启动app Master进程app Master决定在哪些数据节点上执行任务。被分配执行任务的节点去公...原创 2019-09-19 17:48:39 · 814 阅读 · 0 评论 -
CAP理论
什么是数据一致性 在分布式系统中,为了保证数据的高可用性,需要对数据进行备份。如果在备份过程中,系统出现了故障,导致不同机器上的数据不一致,这就造成了数据一致性问题。CAP理论 CAP,是三个单词的首字母大写,分别是:consistency,availability,partition tolerance。 consistency:一致性,与数据库的ACID的一致性类似,这里更...原创 2019-09-05 09:39:34 · 484 阅读 · 0 评论 -
两阶段提交2PC,三阶段提交3PC
为了实现分布式事务,人们提出了分两个阶段提交事务,以及改进版,分三个阶段提交事务。 为了实现不同事务参与者之间事务的一致性,需要有一个统一的事务管理者,来对这些参与者进行统一的事务管理, 两阶段提交过程大致如下: 准备阶段管理者向参与者发起事务请求,询问是否可以执行事务。参与者执行事务,写undo日志和redo日志,并返回事务执行成功或失败。 提交阶段管理者接到参与...原创 2019-09-05 14:33:51 · 280 阅读 · 0 评论 -
一致性算法Paxos
文字版的看累了,不如看看这个b站视频版的教程,我感觉讲的挺好的。https://www.bilibili.com/video/av21667358?from=search&seid=15216206476414089463 paxos算法的原理还是比较复杂的,几乎所有的原理讲解都会用在议会上提交议案这样的例子来讲解,我认为,配合例子和上面那个视频,理解paxos算法还是不难的。 ...原创 2019-09-05 17:59:18 · 189 阅读 · 0 评论 -
HDFS文件写入、读出流程
一、写入客户端创建Distributed File System对象,调用该对象的create()方法,创建FSDataOutputStream对象。Distributed File System对象通过RPC,在namenode中创建一个空的Entry。FSDataOutputStream对象读入数据,并将数据打包(默认64M),写入对象内部的缓冲区。FSDataOutputStrea...原创 2019-09-17 15:04:47 · 259 阅读 · 0 评论 -
HDFS简介
HDFS主要负责文件存储,包含三种角色:1. namenode 2. datanode 3. secondary namenode 1. namenode(1)将所有的文件和文件目录信息保存在一颗文件目录树中。(2)这些信息也会持久化到磁盘里,保存为images系统镜像文件和edit日志文件。(3)保存每个文件都分成了哪些数据块,分别存储在哪些节点上。但是这些信息不会持久化,在系统启动...原创 2019-09-17 15:42:45 · 512 阅读 · 0 评论 -
FSimage与EditLog合并的过程
Secondry NameNode每个周期(15min)询问Edit文件的大小。当Edit文件达到合并阈值时,namenode停止使用Edit文件,并建立一个Edit.new的新文件。Secondary NameNode通过get请求得到fsimage文件和edit文件,执行edit文件中的操作,结果存入新的fsimage文件。合并完成后通知namenode,namenode发送post请...原创 2019-09-17 16:42:27 · 666 阅读 · 0 评论 -
HDFS的联邦(federation)
联邦(Federation) 早期的HDFS只有一个namenode,维护一个namespace,如果namenode节点挂掉,整个系统都将不可用,数据节点的数据也将丢失。为了分散风险,加入了多个namenode,每个namenode按照一定规则(Client side mount table 客户端挂载表)分管集群的一部分任务。 一个datanode维护一个data volume,包括d...原创 2019-09-18 11:04:47 · 414 阅读 · 0 评论 -
HDFS的HA
HA(high availability)是集群单点故障的解决方案。HDFS的HA一般配合zookeeper实现。HA中有多个NameNode,一个处于active状态,其他均处于standby状态。多个namenode通过文件共享,一起维护edit日志文件,active节点负责写,standby节点只读,通过这种方式保证集群节点状态的一致性。HDFS默认使用QJM(基于Paxos)。...原创 2019-09-18 12:07:00 · 179 阅读 · 0 评论 -
向HDFS中写入数据时,如果有一个副本出错了怎么办
关闭管线。将已经发送到管道中,但是还没有确认的数据重新写回到缓冲区,保证数据不会丢失。所有的namenode重新分配一个版本号重新选举一个主datanode计算所有datanode中最小的数据块,重新分配重建管线,重新写入宕掉的datanode恢复后由于版本号不同会被剔除掉。写完文件,namenode发现副本数量不够,会在其他数据节点上再创建一个新的副...原创 2019-09-18 16:34:28 · 831 阅读 · 0 评论 -
yarn
原创 2019-09-18 20:02:40 · 162 阅读 · 0 评论 -
替代xshell的国产软件 FinalShell
今年8月份NetSarang公司旗下软件家族的官方版本被爆被植入后门着实让我们常用的Xshell,Xftp等工具火了一把,很长时间都是在用Xshell,不过最近发现了一款同类产品FinalShell,还是一块良心国货。初步体验了一下,确实是良心之作。且免费(通用版),支持国货。下面附上一些截图和官方连接:官网:http://www.hostbuf.com/FinalShell是一体化的...转载 2018-08-01 18:15:24 · 936 阅读 · 0 评论