
Hadoop
chenxiaokang97
目标设到月球,即使失败,也能落到众星之间。
展开
-
Sqoop
Sqoop安装下载,解压,配置环境变量conf里的配置不需要动,如果没有安装ZooKeeper和Hbase,就把configure-sqoop里有关zk和hbase的脚本全部注释掉;如果安装了zk和hbase,就不需要改。导入,一个mysql的坑我们导入hive表的DBS表➜ sqoop git:(master) ✗ sqoop import --connect jd...原创 2018-08-07 12:33:13 · 792 阅读 · 0 评论 -
Hive的数据类型和常用操作
Hive数据类型和存储格式基本数据类型:TINYINT(1字节)、SMALLINT(2字节)、INT(4字节)、BIGINT(8字节)、FLOAT(4字节)、DOUBLE(8字节)、BOOLEAN(true/false)、STRING(字符序列)。 Hive也是由Java编写的,所以Hive的基本数据类型都是对Java中的接口的实现,这些基本的数据类型和Java的基本数据类...原创 2018-08-06 18:08:15 · 1701 阅读 · 0 评论 -
Hive安装配置
Hivehive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析。Hive的数据存储 Hive中的所有数据都存储在HDFS中,没有专门的数据存储格式(支持Text,SequenceFile,ParquetFile、RCFILE等)只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,hive就可以解析数据。hive中包含以下数据模型:DB、Ta...原创 2018-08-06 10:04:24 · 648 阅读 · 0 评论 -
MapReduce二次排序
MapReduce二次排序➜ student git:(master) ✗ hadoop dfs -cat /sortTwo/dataDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.18/08/05 16:18:55 W...原创 2018-08-05 16:20:42 · 355 阅读 · 0 评论 -
MapReduce连接join操作
MapReduce连接操作➜ student git:(master) ✗ hadoop dfs -cat /student/student_info.txtDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.18/08/0...原创 2018-08-05 15:37:43 · 698 阅读 · 0 评论 -
控制sort和作业提交
控制sort和作业提交MapReduce过程一共发生了3次排序操作,排序操作属于MapReduce的默认行为,我们不能控制是否发生排序,但可以控制排序的规则。 IntWritable类、Text类等都是WritableComparable的实现类,WritableComparable同时继承了Writable和Comparable接口。 WritableComparable实现类可以通过排...原创 2018-08-05 11:04:26 · 252 阅读 · 0 评论 -
Writable接口
Writable接口package cn.chen.hd.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Writable;import java.io.*;public class TestWritable { public static void main(String...原创 2018-08-05 10:45:39 · 911 阅读 · 0 评论 -
WordCount
package cn.chen.hd.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apa...原创 2018-08-05 10:45:06 · 331 阅读 · 0 评论 -
控制Shuffle
控制Shuffleshuffle的工作主要是将中间结果分发到Reducer上,分发的依旧是中间结果的分区(partition),也就是说同一个分区的中间结果会交由一个Reduce任务处理,而进行分区操作的是由org.apache.hadoop.mapreduce.Partitioner的子类完成。 Partitioner@InterfaceAudience.Public@Interfa...原创 2018-08-05 10:43:25 · 293 阅读 · 0 评论 -
MapReduce
MapReduceshuffle 一个MapReduce作业经过了input、map、combine、reduce、output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分发到reducer的过程被称为shuffle。shuffle阶段还会发生copy和sort。 Reduce任务默认会在Map任务数量完成5%后才开始启动。Map任务的执行过程...原创 2018-08-05 09:42:20 · 487 阅读 · 0 评论 -
HDFS详解
HDFShadoop1.x的HDFS默认块大小为64MB;hadoop2.x的默认块大小为128MB,最小化寻址开销。(配置项为hdfs-site.xml中的dfs.block.size) 减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;对数据块进行读写,减少建立网络的连接成本;减轻了namen...原创 2018-08-04 11:33:26 · 554 阅读 · 0 评论