
大数据
文章平均质量分 89
leanaoo
这个作者很懒,什么都没留下…
展开
-
简单的Hadoop服务hdfs上文件的上传删除及查询
简单的Hadoop服务hdfs上文件的上传删除及查询上次将Hadoop集群版搭建完成了,那么怎么上传下载文件呢?Linux上进行上传下载查询操作首先将Hadoop服务启动将master,slave1,slave2三台虚拟机启动在master上启动Hadoop服务start-all.sh然后jps查看命令是否启动成功,和Hadoop集群搭建中验证方法一致确认启动成功后,使用Xshe...原创 2018-10-18 21:08:44 · 9044 阅读 · 0 评论 -
sqoop的安装
概览1.sqoop简介2.sqoop的安装和配置3.测试4. 异常处理1.sqoop简介Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进...原创 2018-10-23 21:23:28 · 384 阅读 · 0 评论 -
hive的安装
概览1.上传解压2.配置环境变量3.配置hive-site.xml4.将mysql的连接驱动放到hive/lib下5.初始化操作6.执行hive命令并测试7.异常处理如果是集群版,Hive安装在一台虚拟机上就行首先确保hdfs和mysql是正确启动的1.上传解压软件:hive-2.3.3在/usr在创建hive文件夹,用来存放压缩包和作为安装路径[root@master ...原创 2018-10-23 22:33:23 · 2243 阅读 · 0 评论 -
Java代码实现对HBase的基本操作
概览1.导入jar包2.测试3.异常处理首先将HBase搭建完成,然后启动Zookeeper,Hadoop,HBase集群1.导入jar包准备:1.CentOS72.Zookeeper集群3.Hadoop2.7.3集群4.hbase2.0.0集群5.eclipse在eclipse中建个java项目,项目中新建个lib文件夹用来存放jar包将hbase目录下的lib下的所有...原创 2018-10-26 19:22:40 · 13608 阅读 · 0 评论 -
HBase中什么是Region,什么是RegionServer
regionServer 其实是hbase的服务,部署在一台物理服务器上,region有一点像关系型数据的分区,数据存放在region中,当然region下面还有很多结构,确切来说数据存放在memstore和hfile中。我们访问hbase的时候,先去hbase 系统表查找定位这条记录属于哪个region,然后定位到这个region属于哪个服务器,然后就到哪个服务器里面查找对应region中的数据...原创 2018-10-26 19:42:48 · 8617 阅读 · 0 评论 -
Java代码实现对hive的基本操作
1.导入jar包确保你的Zookeeper,Hadoop集群和hive启动着在eclipse上新建java项目,并在项目下建个lib文件夹,然后将jar包放到lib中导入项目hive的lib下的将其全部导入到项目中2.测试在你要测试的hive的主机的/usr/tmp建个student文件,里面放入一些数据数据列间使用一个\table(制表符)隔开1 lilei2 hanm...原创 2018-10-26 20:36:30 · 27933 阅读 · 0 评论 -
hiveserver2的配置和启动
概览1.配置hive-site.xml2.配置hadoop中的core-site.xml文件3.测试首先将hive安装然后更改部分配置文件1.配置hive-site.xml利用Xshell工具连接虚拟机进入hive安装目录下的conf文件夹,更改hive-site.xml配置文件其中配置参考hive安装中的配置hive-site.xml你会发现/usr/hive/apache-...原创 2018-10-24 21:35:16 · 61939 阅读 · 7 评论 -
flume多节点集群搭建
概览1.Flume流程简介2.规划3.配置4.启动测试5.注意准备操作系统:CentOS 7搭建好hadoop集群Flume版本:1.8.0 jdk版本:1.8.0_141工具:Xshell 5,Xftp 5,VMware Workstation Pro1.Flume流程简介Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合...原创 2018-11-20 20:44:22 · 11402 阅读 · 6 评论 -
Kafka集群安装
概览1.上传解压2.修改配置文件3.分发到其他节点下4.启动5.测试6.注意准备安装好ZookeeperJDK版本:1.8.0_141Kafka版本:kafka_2.12-1.1.0工具:Xshell 5,Xftp 51.上传解压首先在master(随意一台)的主机上的/usr下创建kafka文件夹作为安装路径[root@master ~]# cd /usr/[roo...原创 2018-11-20 21:41:24 · 5460 阅读 · 0 评论 -
简单说明什么是kafka
Kafka通俗理解Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。...转载 2018-11-20 21:53:53 · 7426 阅读 · 7 评论 -
flume的单机版配置及测试
准备工具:Xshell 5,Xftp 5(官网有免费版本)flume版本:1.8.01.上传解压在flume官网上下载完成flume后,利用Xftp上传到虚拟机中,然后解压[root@localhost ~]# cd /usr/[root@localhost usr]# lsbin etc games hadoop hbase hive include java li...原创 2018-11-19 21:21:52 · 1440 阅读 · 0 评论 -
flume采集日志到hadoop存储
概览准备1.将hadoop的hdfs-site.xml和core-site.xml 放到flume/conf下2.将hadoop的jar包拷贝到flume的lib目录下3.配置flume2.conf4.启动flume(保证首先启动hdfs)5.测试准备首先将flume配置完毕,参考flume的单机版配置及测试hadoop集群搭建完毕,参考hadoop单机版搭建,hadoop集群搭...原创 2018-11-19 22:06:47 · 3401 阅读 · 0 评论 -
HBase集群搭建
首先HBase是基于Hadoop集群和Zookeeper集群的,所以先将这两个搭建完毕1.HBase简介及规划简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Goo...原创 2018-10-25 19:52:42 · 4181 阅读 · 1 评论 -
HBase之简单的shell操作
这些只是简单的shell操作,更多的shell操作还是去网上查看首先启动相应的服务进入客户端[root@localhost conf]# hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSION...原创 2018-10-25 19:49:16 · 207 阅读 · 0 评论 -
MapReduce的原理和执行流程
概览1.MapReduce简介2.MapReduce的原理和执行流程3.测试MapReduce4.Java代码实现MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce是一种并行可扩...原创 2018-10-18 22:05:11 · 4566 阅读 · 0 评论 -
Hadoop集群单机版搭建
Hadoop集群单机版搭建首先本文是基于CentOS 7 , jdk1.8.0_141 和Hadoop2.7.3环境搭建1. CentOS的安装首先准备好CentOS7 64位的镜像然后在VMware上安装虚拟机这里注意选择镜像自动检测CentOS 64位, 不然之后步骤比较麻烦其他步骤都与普通安装虚拟机一样,直接默认下一步,然后开启虚拟机这里直接进行回车继续即可语言选择可以...原创 2018-10-16 22:03:07 · 3870 阅读 · 0 评论 -
MapReduce对手机上网记录的简单分析和Partitioner分区
概览1.MapReduce处理手机上网记录2.Partitioner分区上次说过了关于MapReduce的执行流程和原理,下面来说下分区和简单示例1.MapReduce处理手机上网记录首先我们需要先模拟一个通话记录文件在Windows的桌面建个tel.log的文件,里面模拟一些通话记录信息1363157985066 13726230503 00-FD-07-A4-72-B8:CMC...原创 2018-10-19 20:15:29 · 320 阅读 · 0 评论 -
将MapReduce分析手机上网记录的结果进行排序操作
上次我们说过了MapReduce对手机上网记录的简单分析和Partitioner分区这次我们介绍一下如何将手机上网记录根据总流量的多少进行排序1.编写Java代码,并将其打包成jar包在eclipse上创建个新的java项目,创建lib文件夹,将上次的jar同样导入进来然后创建个TelBean类这里实现了WritableComparable接口,就是序列化的比较,详情查询api文档p...原创 2018-10-19 20:51:16 · 296 阅读 · 0 评论 -
Zookeeper的安装
概览1.Zookeeper简介2.Zookeeper的安装3.Zookeeper的配置4.启动集群5.数据同步测试1.Zookeeper简介Zookeeper功能简介ZooKeeper 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现分布式应用程序可以基于ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、...原创 2018-10-19 21:57:52 · 1624 阅读 · 1 评论 -
Combiners编程
这个是基于 MapReduce对手机上网记录的简单分析和Partitioner分区原创 2018-10-19 22:11:04 · 123 阅读 · 0 评论 -
Hadoop集群搭建
上次说了Hadoop集群单机版的搭建,这次来依照单机版的基础搭建一个简单的集群版规划这次搭建的是一个主机和两个从机,也就是只有两个node节点,也可以让主机上有node节点,之后会说主机名cluster规划masternamenode,secondarynamenode,ResourceManagerslave1Datanode, NodeManagers...原创 2018-10-17 20:38:27 · 1064 阅读 · 0 评论 -
Hadoop 2.0 HA 3节点高可用集群搭建
概览1.集群规划2.准备3.修改Hadoop配置文件4.复制内容5.启动集群6.查看jps7.测试1.集群规划HDFS HA背景HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况:一是NameNod...原创 2018-10-22 20:59:44 · 2613 阅读 · 0 评论 -
Hadoop中JournalNode的作用
NameNode之间共享数据(NFS 、Quorum Journal Node(用得多))两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化...原创 2018-10-22 21:25:27 · 13318 阅读 · 1 评论 -
mysql的安装(Linux)
如果是集群版的安装在你规划的需要安装mysql的虚拟机(服务器)上安装1.安装mysql客户端1.1 安装wget命令yum -y install wget1.2 下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm1.3 安装安装1.3.mysql-community-r...原创 2018-10-23 09:48:31 · 179 阅读 · 0 评论 -
HBase单节点的安装以及shell操作
概览1.HBase简介2.上传解压3.修改配置文件4.启动5.进入客户端进行shell操作1.HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Go...原创 2018-10-25 16:37:52 · 948 阅读 · 1 评论 -
Spark的安装部署
准备CentOS7scala-2.10.5spark-2.1.1-bin-hadoop2.7hadoop高可用集群(或普通集群)工具:VMware12 Xshell5 Xftp51.安装scala启动虚拟机,利用Xshell连接,使操作更加方便,然后使用Xftp连接以便上传文件首先在/usr路径下创建一个scala文件夹当作安装目录以及安装包的上传路径[root@master ~...原创 2018-12-13 20:14:43 · 438 阅读 · 0 评论