
大数据集群
sghuu
这个作者很懒,什么都没留下…
展开
-
zokeeper的分布式安装
1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)解压Zookeeper安装包到/opt/module/目录下[atguigu@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)同步/opt/module/zookee...原创 2019-10-17 09:41:42 · 228 阅读 · 0 评论 -
hive的详细优化
**hive的优化**1. Fetch 抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversio...原创 2019-10-16 21:29:56 · 203 阅读 · 2 评论 -
NameNode和DataNode的多目录配置
NameNode多目录配置NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性具体配置如下(1)在hdfs-site.xml文件中增加如下内容<property> <name>dfs.namenode.name.dir</name><value>file:///${hadoop.tmp.dir}/dfs...原创 2019-09-27 19:33:51 · 817 阅读 · 0 评论 -
hadoop的block大小的原因以及其他的block大小
hadoop的block大小的原因HDFS中的文件在物理上是分块存储的,快的大小可以通过配置参数来规定,默认在hadoop2版本中是128M,老版本是64M。128M是由于大部分磁盘的传输速率决定的,一些大厂提高磁盘的传输速率从而将块的大小设置为256M的大小,目前普遍为128M;块的过大和过小带来的影响:1、块过小当一个问价较大时,此时就会产生数量巨多的块,则在程序执行时会大量增加寻...原创 2019-09-27 19:13:26 · 1999 阅读 · 0 评论 -
linux启动时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。(以hadoop102 hadoop103 hadoop104 三台机器为集群 hadoop102为namenode节点)具体配置时间服务器的操作:1.检查是否安装ntp (必须root去操作)[root@hadoop102 桌面]# rpm -qa|g...原创 2019-09-24 20:07:27 · 508 阅读 · 0 评论 -
hadoop免密登录
原理图在用户的家目录下通过 ll -a 可以查看隐藏文件夹 在.ssh 文件夹下可以查看该节点的公钥和私钥 以及收到的其他节点的私钥文件authorized_keys 记录ssh访问过计算机的公钥(public key)id_rsa 存储此节点的私钥id_rsa.pub 存储此节点的公钥known_hosts 存放授权过得无密登录...原创 2019-09-24 19:47:49 · 736 阅读 · 0 评论 -
关于格式化NameNode的几点注意
格式化步骤 :先jps查看当前是否有hadoop相应的进程如果有则关闭相应的进程 ,如果还有残留进程 则用 kill -9 端口号 杀死进程原因: 如果在开启进程的时候去上出data和logs文件夹,因为进程仍然在运 行还是会产生相应的data和logs文件,所有并不能删除相应的记录结束相关的进程后,在hadoop的目录下删除data和logs文件夹原因 格式化...原创 2019-09-24 19:23:22 · 3577 阅读 · 0 评论 -
hadoop配置三个JAVA_HOME的环境变量的原因
hadoop是守护线程 读取不到 /etc/profile 里面配置的JAVA_HOME路径 ,所以在 hadoop-env.sh yarn-env.sh mapreduce-env.sh 配置 JAVA_HOME, 这样才能读取到JAVA_HOME原创 2019-09-24 10:46:24 · 4704 阅读 · 1 评论 -
MapReduce工作机制和流程
**MapReduce工作机制和流程**上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4)在溢出过程及合并的过程中,都要调用Pa...原创 2019-08-09 20:09:52 · 367 阅读 · 0 评论 -
HDFS读数据流程
HDFS读数据流程客户端Client生成一个集群对象Distribute FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到块所在的D阿Node地址。根据就近原则然后随机挑选一台DataNode服务器,读取数据3.DataNode开始传输数据给Client客户端(从磁盘里面读取输入流,以Packet《Packet为中等单位64k,DfSClient流...原创 2019-08-02 00:41:38 · 183 阅读 · 0 评论 -
三台虚拟机从零开始搭集群(hadoop)
内存4G,硬盘50G1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP,改主机名 编辑vim /etc/sysconfig/networ...原创 2019-07-29 21:04:32 · 435 阅读 · 0 评论