
hadoop
文章平均质量分 73
boat824109722
这个作者很懒,什么都没留下…
展开
-
hbase系列-hbase导入导出
1、创建test1表# hbase shellhbase(main):004:0> create 'test1', 'cf'0 row(s) in 1.2450 seconds=> Hbase::Table - test12、查看创建好的表hbase(main):005:0> listtest11 row(s) in 0.0160 seconds原创 2017-12-21 17:09:22 · 832 阅读 · 0 评论 -
hadoop1和hadoop2对比
1、结构hadoop1:HDFS、MapReducehadoop2:HDFS、MapReduce、Yarn2、作业调度流程和作业调度器hadoop1:client(多个) —— submitJob—— JobTracker(对应nameNode,单个) ——assignTask——TaskScheduler(维护taskList,单个,为JobTracker的一部分)—原创 2018-01-16 14:25:00 · 422 阅读 · 0 评论 -
Hbase结构和读写过程
1、Hbase写如过程图(图片来源于网络)2、Hbase的结构Master:HBase Master用于协调多个Region Server,侦测各个RegionServer之间的状态,并平衡RegionServer之间的负载,并且分配Region给RegionServer。Region Server:一个RegionServer包含了多个Region(1原创 2018-01-31 10:55:00 · 658 阅读 · 0 评论 -
hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计
1、分布式与并行处理分布式系统通常,我们说分布式系统的时候,我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了,特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以,我们通常认为分布式系统就是多台机器组成一个集群对外提供服务,每个请求也会被分配到集群中的一台或者多台机子上完成,而用户是感觉不同整个系统封装原创 2017-12-20 17:33:07 · 11683 阅读 · 4 评论 -
用sqoop将mysql的数据导入到hive表中
1、mysql的表结构如下:CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `stu_no` varchar(16) DEFAULT NULL, `name` varchar(64) DEFAULT NULL, `age` int(11) DEFAULT '0', `birthday` date原创 2018-01-22 18:16:42 · 1292 阅读 · 0 评论 -
flume系列-flume负载均衡(存HDFS)
为什么不直接把客户端的数据保存到HDFS?服务端做统一的数据过滤处理比较方便(也比较规范),如果客户端量比较大,中间还可以用kafka队列做消峰处理,然后服务端再从kafka获取数据存储到HDFS1、CDH安装flume(web也没直接安装),集成HDFS,Hbase修改配置:Agent 的 Java 堆栈大小(字节) 1GHDFS目录创建(数据目录):master原创 2017-12-18 16:39:43 · 2224 阅读 · 0 评论 -
flume系列-flume单点集成HDFS
(spooldir)新增文件输入(往目录添加新文件),远程输出到HDFS,支持windows(这个例子在windows下完成)官网或者github下载apache-flume-1.7.0-bin.tar.gz,然后解压在E盘,添加环境变量在Flume的安装目录下的lib目录下添加如下jar包hadoop-common-2.6.0-cdh5.11.0.jarhadoop-au原创 2017-12-18 16:38:41 · 2508 阅读 · 1 评论 -
hbase系列-HBase Scan类用法
HBase Scan类用法public static void main(String[] args) throws IOException {//Scan类常用方法说明//指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns;// scan.addFamily();// scan.addC转载 2017-12-18 09:27:20 · 7523 阅读 · 0 评论 -
手动部署和使用工具(Cloudera Manager、Ambari)部署Hadoop对比
手动部署优点:对组件和集群管理深刻(对学习比较好)、支持全部组件;手动部署缺点:比较复杂,安装耗时比较多,要自己解决各个组件直接的兼容性工具部署优点:安装超级简单(界面化操作)、支持常用组件(不常用可以自己集成进去)、默认优化了很多参数(如HDFS的snappy压缩)、提供集群的各种信息查看控制台工具部署缺点:不利于学习(对各个组件的理解不深刻)Cl原创 2017-12-18 09:21:05 · 2579 阅读 · 0 评论 -
hive系列-hive整合hbase
hive整合hbase1、在hive控制台建库,建表(注意,int,long,boolean这些数据类型,映射时要加上#b,不然查询到的数据会是乱码或者null)create database credit_mate_data;use credit_mate_data;create external table shop_order_info(key string,原创 2017-12-15 16:45:29 · 1101 阅读 · 0 评论 -
hive系列-hive教程
hive教程备注:hive本身是不存储数据的,它可以把Mysql、Hdfs、Hbase等当然数据源,然后做数据处理,表面上,Hive用的是SQL,但是Hive的底层是MapReduce,它只是一个把SQL转变成MapReduce的工具,当然,有些没有查询条件的查询它只是做了数据的映射(并不执行MapReduce),这也是它做的优化。1、建表默认是内部表creat原创 2017-12-15 16:44:12 · 1169 阅读 · 0 评论 -
Hive over HBase和Hive over HDFS性能比较分析
环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较:query1:select count(1) from on_hdfs;selec转载 2017-12-07 09:12:21 · 476 阅读 · 0 评论 -
合并HDFS和本地文件系统中的小文件
关键字:hadoop hdfs 小文件、appendToFile、getmerge众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小转载 2017-12-07 08:58:19 · 964 阅读 · 0 评论 -
【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管转载 2017-12-06 09:12:45 · 358 阅读 · 0 评论 -
MapReduce系列-eclipse运行MapReduce
1、eclipse安装hadoop的插件下载 hadoop-eclipse-plugin-2.6.0.jar,将其放入 eclipse 的 \plugins 目录,并重启 eclipse,项目视图(Project Explorer)会多出一个DFS Locations文件夹,在 Window—>Show View—>Other—>MapReduce Tools—>Map/Reduce Loca原创 2018-01-29 14:38:06 · 1245 阅读 · 0 评论