
大数据
文章平均质量分 70
从明老师
java资深讲师,大数据高级讲师
展开
-
Centos7.7升级Ruby版本
今天搭建redis-4.0.1版本的集群时,提示ruby的版本需要高于2.2.2,于是进行了升级,这里记录一下,方便你我。第一步:安装ruby环境第二步:查看版本第三步:删除原来的rubygems仓库第四步: 添加aliyun的rubygems仓库并查看第五步:使用RVM进行升级ruby[root@qianfeng04 ~]# gpg --keyserver hkp://keys.gnupg.net --recv-keys 409B6B1796C275462A1原创 2022-03-21 23:40:27 · 2202 阅读 · 0 评论 -
Zookeeper的应用场景
好久没有写文章了。今天看到Zookeeper的应用场景案例,突然回忆到以前就曾想整理一篇Zookeeper的应用场景介绍。原创 2020-09-22 20:14:53 · 607 阅读 · 0 评论 -
《Linux系统》虚拟机删除文件后,磁盘文件所占物理空间没有变小的解决方式
大家在玩虚拟机时,经常会遇到这种情况,在虚拟机上删除(rm -rf ...)大文件时,真正的物理磁盘上对应的虚拟机文件没有变小。如果你的物理磁盘不够大,你的那个盘符可能就飘红了。很多人再尝试了很多方法后,依然没有解决。有强迫症的人,可能就要重新安装系统了.......下面把我在VMware里安装的CentOS7.7上反复验证、测试有效的方法总结到下面,希望可以帮助上你们。方法1:dd +...原创 2020-01-06 10:11:34 · 4159 阅读 · 3 评论 -
《Linux系统》之"皮毛系列"(十)使用定时器进行时间同步
玩linux系统的人应该知道这个事情,那就是Linux系统时间有两个,一个是硬件时间,即BIOS时间;另一个是系统时间,即linux系统Kernel(内核程序)时间。当Linux启动时,系统Kernel会去读取硬件时钟的设置,然后系统时钟就会独立于硬件运作。而某些时候,我们会发现系统时钟和硬件时钟不一致,此时需要进行时间同步。一、设置Linux系统的时区1.查看时间或者时区#查看时间...原创 2019-08-14 12:54:05 · 463 阅读 · 0 评论 -
《Hadoop》"呶呶不休"(五)Windows10下的Eclipse搭建Hadoop2.7.3开发环境
在这一章里,我们来学习如何在Windows操作系统下,搭建Hadoop2.7.3集群的Eclipse开发环境。一、准备工作1、安装Hadoop2.7.3集群我们使用VMware工具安装多台Linux系统,然后在Linux系统上搭建我们所需要的Hadoop2.7.3完全分布式集群。具体步骤可以参考我写的《Hadoop》之"踽踽独行"(十)快速搭建一个Hadoop完全分布式集群或者是另一篇...原创 2019-01-16 15:19:36 · 683 阅读 · 2 评论 -
《Hadoop》之"踽踽独行"(八)Hadoop集群的启动脚本整理及守护线程源码
在上一章的伪分布式集群搭建中,我们使用start-dfs.sh脚本启动了集群环境,并且上传了一个文件到HDFS上,还使用了mapreduce程序对HDFS上的这个文件进行了单词统计。今天我们就来简单了解一下启动脚本的相关内容和HDFS的一些重要的默认配置属性。一、启动脚本hadoop的脚本/指令目录,就两个,一个是bin/,一个是sbin/。现在,就来看看几个比较重要的脚本/指令。1、...原创 2019-01-09 17:26:22 · 2068 阅读 · 1 评论 -
《Hadoop》"呶呶不休"(三)HDFS的存储原理
一、数据块的冗余为了保证系统的容错性和可用性,hdfs采用了多副本方式对数据块进行冗余存储,也就是一个数据块的多个副本会被分布到不同的Datanode上,存储在Datanode的本地文件系统中。这种多副本的存储方式有以下优点:1)加快数据传输速度。当多个客户端需要同时访问同一个文件时,这些客户端可以从不同的数据块副本中读取数据,大大提高了数据的传输速度。2)容易检查数据错误。HDFS...原创 2019-01-14 16:28:17 · 2127 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(七)Hadoop的伪分布式集群搭建
在上一章我给大家介绍了Hadoop的单节点集群本地模式的搭建,在这一章中,我们来了解一下Hadoop伪分布式集群的搭建与用途。一、Hadoop伪分布式集群(pseudo distributed cluster)1、简介hadoop的pseudo distributed cluster(伪分布式集群),就是在一台主机上模拟多个主机。即hadoop的守护程序在本地计算机(这个指的是Linu...原创 2019-01-08 14:37:58 · 739 阅读 · 1 评论 -
《Hadoop》"呶呶不休"(二)HDFS体系结构概述
在上一章中,我们了解了HDFS的设计思想,从而引出了一些相关概念,比如块、名称节点(Namenode)、数据节点(Datanode)、还有SecondaryNamenode等等。在这一章,我们从HDFS的整体结构上再来全面了解一下。一、体系结构简介HDFS 采用的是master/slaves这种主从的结构模型来管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端)、Na...原创 2019-01-13 17:35:16 · 693 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(六)Hadoop的单节点集群设置
在《Hadoop》之"踽踽独行"(五)这一篇中,我们对Hadoop进行了简单的概述。接下来,我们就来了解一下Hadoop集群的安装。而Hadoop的安装模式有以下三种,我们一一来了解一下单节点上的本地模式(独立模式) :Local(Standalone)Mode 单节点的伪分布模式:Pseudo-Distributed Mode 多节点的安全分布式集群模式:Fully-Distribute...原创 2019-01-08 13:09:33 · 460 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(三)物联网概述
在上一章《Hadoop》之“踽踽独行”(二)中,我们介绍了云计算的相关概念,在这一章里,我们来介绍一下物联网的概念,及其大数据,云计算和物联网三者的区别与联系。一、物联网1、物联网的概念物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。从技术架构上来看,...原创 2019-01-03 11:28:23 · 8088 阅读 · 2 评论 -
《Hadoop》"呶呶不休"(一)HDFS设计思想和相关概念
一、HDFS简介1、简单介绍HDFS(Hadoop Distributed FileSystem),是Hadoop项目的两大核心之一,源自于Google于2003年10月发表的GFS论文,是对GFS的开源实现。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS在设计之初,就是要运行在通用硬件(commodity hardware)上,即廉价的大型...原创 2019-01-12 17:55:47 · 675 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(二)云计算概述
在《Hadoop》之“踽踽独行”(一)大数据概述的那一章中,我们对大数据的相关概念做了详细的解说。而云计算、物联网与大数据代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。为了更好地理解三者之间的紧密关系,下面也简要介绍云计算(物联网的概念的在下一章介绍)。1、云计算概念云是网络、互联网的一种比喻说法。过去在图像中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽...原创 2019-01-02 17:14:30 · 651 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(一)大数据概述
一、大数据时代大数据时代的悄然来临,让信息技术的发展发生了巨大变化,并深刻影响着社会生产和人民生活的方方面面。每个国家都高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和教育机构也纷纷加大技术,资金和人员投入力度,以期在“第三次信息化浪潮”中占得先机,引领市场。1、三次信息化浪潮第一次信息化浪潮1980年前后,个人计算机的普及,使得计算机走入企业和...原创 2018-11-28 16:13:02 · 2828 阅读 · 0 评论 -
《Hadoop》"呶呶不休"(四)HDFS读写流程的详解
在这一章里,我们来具体了解一下客户端与HDFS、Namenode和Datanode之间的数据流到底是什么样子的。我们分别从两个方面来了解数据流,一个是客户端从HDFS中读数据,一个是客户端向HDFS中写数据。一、读流程解析我们来结合一下代码和流程图来解析一下HDFS的读流程。public static void main(String[] args) throws Exception...原创 2019-01-15 23:42:06 · 566 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(十)快速搭建一个Hadoop完全分布式集群
截止到今天,我已经在博客中给大家介绍了hadoop的本地模式、伪分布式搭建,并且在《Hadoop》之"踽踽独行"(四)中也总结了在CentOS6.5平台上搭建的hadoop2.7.3集群的步骤。在那篇文章中,会涉及到一些原理,比如节点之间的SSH无密码登录,时间同步,防火墙设置以及在多节点之间的文件传输等等。当然,那样的集群搭建很适合理解搭建原理。现在呢,hadoop集群的搭建原理,我们也知道...原创 2019-01-10 17:21:09 · 1005 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(九)Hadoop集群的四个配置文件的属性解析
在启动hadoop集群的守护线程时,一定会加载并运行相关的class字节码文件。通过common模块和hdfs模块里的源码可以看到,它们读取了相关的配置文件。hadoop-common-2.7.3-sources.jar下的org.apache.hadoop.conf.Configuration源文件的部分源码:package org.apache.hadoop.conf; //类的全...原创 2019-01-10 12:44:36 · 821 阅读 · 1 评论 -
《Hadoop》之"踽踽独行"(五)Hadoop简介及其Hadoop生态系统
一、Hadoop出现的原因现在的我们,生活在数据大爆炸的年代。国际数据公司已经预测在2020年,全球的数据总量将达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。一些数据集的大小更远远超过了1TB,也就是说,数据的存储是一个要解决的问题。同时,硬盘技术也面临一个技术瓶颈,就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量的提升。我们看...原创 2019-01-04 13:06:40 · 862 阅读 · 0 评论 -
《Hadoop》之"踽踽独行"(四)CentOS 6.5搭建hadoop2.7.3集群环境
在VMware虚拟软件中,我们要如何模拟hadoop集群搭建呢?我来整理一下思路,希望对大家有所帮助!!1. 安装centos6.5主机2. 关闭防火墙和selinux3. 配置网络4. 时间同步5. ssh无密码登录设置6. 安装jdk7. 安装hadoop8. 启...原创 2018-06-28 09:54:54 · 2914 阅读 · 0 评论