
hadoop
文章平均质量分 75
hdfs和MR操作记录
RZH_long
这个作者很懒,什么都没留下…
展开
-
HIVE的基本使用05(HSQL调优)
1.fetch抓取select * from A;这种语句可以直接读取文件,不走MR程序会快很多;不走MR程序的情况:在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。设置conversion参数后再执行sql:hive (default)> set hive.fetch.task.原创 2021-12-20 23:11:29 · 1829 阅读 · 0 评论 -
HIVE的基本使用05(指定存储格式,在hive创建表那里提过,此处详细解释)
行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;ORC和PARQUET是基于列式存储的(实际生产一般用这两种和sn...原创 2021-12-20 21:51:16 · 614 阅读 · 0 评论 -
HIVE的基本使用05(压缩参数的指定)
压缩格式jar包目录一览表 压缩格式 对应的编码/解码器 DEFLATE org.apache.hadoop.io.compress.DefaultCodec gzip org.apache.hadoop.io.compress.GzipCodec bzip2 org.apache.hadoop.io.compress.BZip2Codec原创 2021-12-20 21:41:08 · 421 阅读 · 0 评论 -
HIVE的基本使用05(自定义java函数UDF) demo
maven导入jar包<repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies>...原创 2021-12-20 21:30:57 · 1137 阅读 · 0 评论 -
HIVE的基本使用04(数据查询,以及优化)
select的语法概述(掌握每个关键字的含义和使用):SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] ]...原创 2021-12-20 21:23:20 · 147 阅读 · 0 评论 -
HIVE的基本使用03(数据插入导入导出)
--------------------------------------------数据导入--------------------------------------------------1.直接向分区表中插入数据(强烈不推荐使用,会调用MR程序,非常慢)insert into table score3 partition(month ='201807')values ('001','002','100');2.通过load方式加载数据load data local inpath .原创 2021-12-15 22:42:39 · 218 阅读 · 0 评论 -
HIVE的基本使用02(表的创建,维护,加载数据)
-----------------------------创建数据库表语法(熟悉关键字)-----------------------------------------CREATE [EXTERNAL] TABLE[IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY(col_name data_t...原创 2021-12-15 22:29:58 · 284 阅读 · 0 评论 -
HIVE的基本使用01(连接hive,创建数据库)
--------------------------------------hive的交互:--------------------------------------------------1.Hive交互shell(不常用)cd/export/servers/hive-1.1.0-cdh5.14.0bin/hive2.第二种交互方式:Hive JDBC服务(一般后台启动输出日志到文件,常用)启动服务端,客户端进行连接。前台启动cd /export/servers/hi..原创 2021-12-15 22:08:28 · 1270 阅读 · 0 评论 -
hive基于hadoop安装Mysql存储元数据
1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/直接启动bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表就不统一;使用mysql共享hive元数据..原创 2021-12-07 22:51:15 · 224 阅读 · 0 评论 -
MR自定义分组获取TopN
package com.cn.demo_groupTopN;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;/** * 继承WritableComparator类,重写compare 方法 相同的订单ID认为相同 */public class MyGroupCompactor extends WritableComparator { /*.原创 2021-12-07 22:39:10 · 926 阅读 · 0 评论 -
自定义OutputFormat
package com.cn.demo_outputformat;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hado.原创 2021-11-30 20:09:06 · 699 阅读 · 0 评论 -
自定义InputFormat
package com.cn.demo_xwjhb;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.JobContext;import org.apa.原创 2021-11-30 20:02:36 · 142 阅读 · 0 评论 -
reduce端的join算法和map端的join算法
------------------------------------reduce端join-------------------------------package demo06.reducejoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Map.原创 2021-11-23 21:41:58 · 461 阅读 · 0 评论 -
hadoop的压缩方式snappy
文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输在重新编译过hadoop的c源码后才可以用谷歌的snappy压缩。我们可以使用bin/hadoop checknative 来查看我们编译之后的hadoop支持的各种压缩,如果出现openssl为false,那么就在线安装一下依赖包//查看压缩支持情况 bin/hadoop checknative//在线安装 yum install openssl-devel这种压缩对应的java类 压缩格式 ...原创 2021-11-23 20:08:45 · 2108 阅读 · 0 评论 -
hadoop分区
package demo04.flow;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;/** * 分区继承于这个类,重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */public class FlowPartion extends Partitioner<Text, FlowNum> { @Override.原创 2021-11-23 19:55:01 · 784 阅读 · 0 评论 -
hadoop按照上行流量进行排序
package demo05.flowOrder;import demo04.flow.FlowNum;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 排序和序列化要实现WritableComparable这个接口,重写compareTo和write,readFields方法.原创 2021-11-23 19:48:56 · 1250 阅读 · 0 评论 -
hadoop二次排序,自定义计数器
import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 序列化和比较: * 序列化实现:Writable * 比较实现:Comparable * 既序列化又比较实现:WritableComparable 后面要加泛型 */public class SortWritable i.原创 2021-11-21 12:39:38 · 682 阅读 · 0 评论 -
hadoop分区
package com.a.b.partion_demo;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class MyPartioner extends Partitioner<Text,NullWritable> { @Override public in.原创 2021-11-21 12:35:33 · 620 阅读 · 0 评论 -
zookeeper的shell操作
连接zk:bin目录下执行脚本zkCli.shquit退出;------------------------------------------------------------------------------------创建节点:create [-s] [-e] path data acl-s :-e :create /abc helloworld 创建一个永久节点,create -s /bbb helloworld 创建永久的顺序节点create -e /m原创 2021-10-28 21:19:51 · 909 阅读 · 0 评论 -
zookeeper安装
关于apache相关软件的安装包:a'paparchive.apache.org/dist/1.解压安装包: tar -zxvf 压缩包 -C 目标路径2.创建目录:mkdir -p /export/servers/zookeeper-3.4.9/zkdatas3.拷贝配置文件:cp zoo_sample.cfg zoo.cfg4.修改拷贝过来的配置文件zoo.cfg:#服务目录dataDir=/export/servers/zookeeper-3.4.9/zkdatas#客原创 2021-10-28 21:12:40 · 92 阅读 · 0 评论 -
zookeeper的javaAPI使用
前提是 windows上host(域名解析文件)文件配置完成。C:\Windows\System32\drivers\etc各台linux服务器和本机能互通。虚拟机zookeeper集权搭建完成并启动。package cn.itcast_zk.demo01;import org.apache.curator.RetryPolicy;import org.apache.curator.RetrySleeper;import org.apache.curator.framework.Curat.原创 2021-10-28 21:16:34 · 317 阅读 · 0 评论 -
zookeeper概述(概念性知识)
zookepper的学习1.zk的介绍:一个分布式的服务协调框架 主要用于协调辅助其他的框架正常运行,主要解决应用系统当中的一致性问题zk本质上是一个分布式的小文件存储系统:zk上面的每个文件最好不要超过1M分布式:每台机器看到的数据都是一样的2.zk的主要作用2.1 统一命名服务。2.2.分布式配置管理3.zk的架构图主从架构:主节点是任务分配的节点,一般1-2个。从节点是执行任务的节点。主备架构:解决主节点单一故障的问题。主节点挂了,选一个从节点当主节点。原创 2021-10-25 22:47:01 · 338 阅读 · 0 评论 -
hdfs文件系统基础命令,高级命令,安全模式,压力测试
ls: -R 递归枚举Usage:hdfs dfs -ls [-R] <args>mkdir: -P 创建父目录和子目录Usage:hdfs dfs -mkdir [-p] <paths>moveFromLocal:从本地剪切文件到hdfs 注意大小写Usage:hdfs dfs -moveFromLocal <localsrc> <dst>moveToLocal :从hdfs移动到系统,此命令还不支持Usage:hdf...原创 2021-11-08 21:56:44 · 167 阅读 · 0 评论 -
hadoop三种运行环境以及standAlone环境的安装
apache版本的hadoop三种运行环境的介绍1.standAlone:单机版的hadoop运行环境,所有都跑在一台环境上2.伪分布式:主节点都在一台机器上,从节点分开到其他机器上,借助3台机器实现3.完全分布式:主节点全部分散到不通的机器上namenode active 占用一台机器namenodestandBy占用一台机器resourceManager active 占用一台机器resoureceManagerstandby 占用一台机器standAlone环境的h原创 2021-10-31 15:41:18 · 1556 阅读 · 0 评论 -
MR的单词计数小程序
----------------------------------主程序入口----------------------------------package com.demo01.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.I.原创 2021-11-16 20:28:49 · 1389 阅读 · 0 评论 -
获取hadoop文件系统的5种方式
package com.cn.demo01;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.junit.Test;import java.io.*;import jav.原创 2021-11-11 20:55:29 · 1811 阅读 · 0 评论