
Hadoop
lds_include
在职人员
展开
-
hive的用户自定udf的讲解
udf用户自定义函数1.为什么需要UDF因为内部函数没法满足需求。hive它本身就是一个灵活框架,允许用自定义模块功能,如可以自定义UDF、serde、输入输出等。2.UDF是什么UDF:user difine function,用户自定义函数,一对一。常用udaf:user define aggregate function,用户自定义聚合函数,多对一。udtf:user d...原创 2019-03-24 22:38:07 · 230 阅读 · 0 评论 -
HBase 简介
HBase 简介什么是HBaseApache HBase是Hadoop数据库,一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时,请使用Apache HBase。这个项目的目标是在商品硬件的集群上托管非常大的表——数十亿行百万列的列。Apache HBase是一个开源的、分布式的、版本化的、非关系的数据库,它模仿了Google的Bigtable:一个结构化数据...原创 2019-03-26 15:50:11 · 359 阅读 · 0 评论 -
Hbase的体系架构讲解
Hbase的体系架构详细架构图ClientHBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信,对于管理类操作,Client与HMaster进行RPC;对于数据读写类操作,Client与HRegionServer进行RPC。ZookeeperZookeeper Quorum中除了存储了ROOT表的地址和HMaster的地址,HRe...原创 2019-03-26 15:57:25 · 478 阅读 · 0 评论 -
hive内置函数
hive的内部函数1、取随机数函数:rand()语法: rand(),rand(int seed)返回值: double说明: 返回一个0到1范围内的随机数。如果指定seed,则会得到一个稳定的随机数序列select rand();select rand(10);2、分割字符串函数:split(str,splitor)语法: split(string str, string pa...原创 2019-03-23 13:45:45 · 531 阅读 · 0 评论 -
hbase架构简化介绍
hbase架构简化介绍架构图Client包含访问的HBase的接口并维护cache来加快对HBase的访问Zookeeper保证任何时候,集群中只有一个master存储所有Region的寻址入口实时监控RegionServer的上线和下线信息,并实时通知Master存储HBase的schema和table元数据Master为RegionServer分配region...原创 2019-03-26 17:57:55 · 3983 阅读 · 1 评论 -
HBase的shell操作
HBase的shell操作1、Gerneralstatus:查询当前服务器状态Version:查看当前版本Whoami:查询当前hbase用户2、namespace的操作create_namespace: 创建命名空间,相当于关系型数据库里创建一个数据库创建一个命名空间名为‘luodesong’,并添加属性create_namespace ‘luodesong’,...原创 2019-03-27 11:36:13 · 195 阅读 · 0 评论 -
Hbase与hive的区别
Hbase与hive的区别总的而言:Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL 的引擎,并且运行MapReduce 任务,Hbase 是一种在Hadoop之上的NoSQL的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google 来搜索,用FaceBook 进行社交一样,Hive 可以用来进行统计查询,HBase 可以用来进行实时查询,数...原创 2019-03-28 19:56:04 · 1404 阅读 · 1 评论 -
hbase的rowKey的设计原则
hbase的rowKey的设计原则.Rowkey长度原则Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在10~100 个字节,不过建议是越短越好,不要超过16 个字节。原因如下:(1)数据的持久化文件HFile 中是按照KeyValue 存储的,如果Rowkey 过长比如100 个字节,1000 万列数据光Rowkey 就要占用100*1000 万=...原创 2019-03-28 20:10:26 · 485 阅读 · 0 评论 -
Scala&Hadoop&Spark的maven的全量集的pom
Scala&Hadoop&Spark的maven的全量集的pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...原创 2019-04-02 20:38:19 · 449 阅读 · 0 评论 -
mapreduce的自定义输出格式
mapreduce自定义输出格式概念:当普通的输出格式不能满足客户的要求的时候。因为普通的输出格式是将结果直接输出到一个单一的文件中去。现在有的需求是将处理的结果输出到数据库中,或者是将结果按照不同的需求输出到不同的文件中去。举例:现在有一个需求是将一个文件读取进来后,然后判断文件中的被切割的字符串是否含有要求的字符串,如果有的话就输出到对应的文件中去。源码解析:源码pu...原创 2019-06-21 16:59:11 · 805 阅读 · 0 评论 -
hive的复杂数据类型
hive常见的复杂数据类型数组Array类型创建复杂类型的表数组arrayluodesong 90,100,100xiaoming 90,90,90创建表create table if not exists arr( name string, score Array<double>)row format delimited fields terminat...原创 2019-03-23 11:33:59 · 553 阅读 · 0 评论 -
hive分区、分桶
hive的分区、分桶一、分区1.为什么要分区当单个表数据量越来越大的时候,hive查询通常会全表扫描,这将会浪费我们不关心数据的扫描,浪费大量时间。从而hive引出分区概念partition2.怎么分区看具体业务,能把一堆数据拆分成多个堆的数据就可以。通常使用id、年、月、天、区域、省份。3.hive分区和mysql分区的区别mysql的分区字段采用的表内字段。hive...原创 2019-03-23 10:33:57 · 343 阅读 · 0 评论 -
hive的数据文件存储格式
hive的数据文件存储格式类型texfile:默认的存储格式:普通的文本文件,数据不压缩,磁盘的开销比较大,分析开销大。sequencefile:提供的一种二进制存储格式,可以切割,天生压缩。rcfile:提供的是一种行列混合存储方式,该方式会把相近的行和列数据放在一块儿,存储比较耗时,查询效率高,也天生压缩。orc:是rcfile的一种优化存储。parquet:自定义输入输出格式。...原创 2019-03-25 10:11:19 · 741 阅读 · 1 评论 -
hive的文件的记录格式serde
hive的文件的记录格式serde一、概念就是表中数据生成的文件的记录的格式,中途涉及到表到文件时是序列化的过程(Serializer)、文件到表的时候是反序列化过程(Deserializer)。二、常见的serdeCSV serde:逗号分割值,有时也称为字符分隔值,因为分隔字符也可以不是逗号。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔...原创 2019-03-25 13:19:33 · 497 阅读 · 0 评论 -
hive数据库的索引解析
hive数据库的索引简要描述注意:索引是数据库的标配技术,hive从0.7以后才开始支持索引。索引的特点:索引文件本身有序,索引文件较小。索引的优缺点hive索引的优点:避免全表扫描或者减少扫描的数量,提高查询效率。hive索引的缺点:将会有冗余存储:加载数据耗时。创建索引先创建表:create table if not exists idx(id bigint,...原创 2019-03-25 16:32:35 · 1073 阅读 · 0 评论 -
hive的视图(view)
hive的视图(view)视图: 视图相当于一个表。hive目前只支持逻辑视图,而不支持物理视图。视图的优点:降低复杂查询。可以将数据很好过滤(局部暴露)。1、创建视图 CVAS创建视图create view if not exists v1 as select * from u1;create view if not exists v2 as select * from u1...原创 2019-03-25 16:58:50 · 2240 阅读 · 0 评论 -
hive执行MapReduce查询报 java.net.ConnectException Call From mini2/192.168.95.32 to mini2:8032 faile...错误
解决hive 执行MapReduce查询的时候报 java.net.ConnectException Call From mini2/192.168.95.32 to mini2:8032 failed on connection…错误问题:当想实现一些会调MapReduce的查询的时候报java.net.ConnectException Call From mini2/192.168.95...原创 2019-03-26 11:07:10 · 847 阅读 · 0 评论 -
解决hive出现 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 错误
解决hive出现 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 错误问题:执行show databases 命令的时候出现如下标错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMe...原创 2019-03-26 11:09:22 · 3785 阅读 · 0 评论 -
hive的优化
hive的优化优化方式:1、环境优化(linux 句柄数、应用内存分配、是否负载等)2、应用配置属性方面的优化。3、代码优化(hql,尝试换一种hql的写法)。学会看explain:解释执行计划explain :显示hql查询的计划。hive>explain select * from one;explain extended :显示hql查询的计划。还会显示hq...原创 2019-03-26 12:59:17 · 313 阅读 · 0 评论 -
解决hbase中hregionserver起不来 报org.apache.hadoop.hbase.ClockOutOfSyncException错
解决hbase中hregionserver起不来 org.apache.hadoop.hbase.ClockOutOfSyncException报错问题当我们启动hbase的服务后发现了一个问题,那就是部分的hregionserver没有起来,或者是起来的但是过了一会儿又死掉了。排查错误方法:通过看启动日志会看到启动日志的存储位置我出错在min1上,所以我查看min1的启动日志。...原创 2019-03-29 19:44:13 · 1565 阅读 · 0 评论 -
hive的内外部表
hive的内外部表创建的方式:外部表create external table if not exists tablename;内部表create table if not exists tablename;使用场景内部表: 多应用于临时表、中间表外部表:用于数据源(较多使用)区别内部表:删除的时候就将源数据删除外部表:删除的时候只鞥删除表结构,不能删除源数...原创 2019-03-23 10:30:53 · 133 阅读 · 0 评论 -
mapreduce的自定义分组器
Mapreduce自定义分组器前提:有的时候我们想将符合条件的key值放在同一个组内;但是key的值是不同的将不会放进同一个组中。举例:想将一个学生的进校以后不同时间段的数学成绩按进校考试的时间进行一个成绩排序。如下效果//排序前的效果 stu1 time1 core1 stu1 time2 core stu1 time3 core3 stu2 time1 core1 stu2 t...原创 2019-06-18 17:55:50 · 846 阅读 · 1 评论