
大数据
wangfutai91
钩深索隐,卓荦为杰。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive2.0函数大全(中文版)
摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数 数学函数 Return Type Name (Signature) ...转载 2019-01-04 13:58:39 · 413 阅读 · 0 评论 -
定时任务crontab 详解
cron 是一个可以用来根据时间、日期、月份、星期的组合来调度对重复任务的执行的守护进程。cron 假定系统持续运行。如果当某任务被调度时系统不在运行,该任务就不会被执行。要使用 cron 服务,你必须安装了 vixie-cron RPM 软件包,而且必须在运行crond 服务。要判定该软件包是否已安装,使用 rpm -q vixie-cron 命令。要判定该服务是否在运行,使用 /sbi...转载 2019-01-09 09:51:45 · 199 阅读 · 0 评论 -
HIVE基础操作(命令,表,数据导出导入等)--持续更新
1.show databases;2.show tables;3.show tables in 数据库名;(不在对应数据库下可查到想要的表名)4.show tables in hive 'tom*'; 查询在hive数据库下,tom开头的表名。5.desc extended tablename; 可以查看表详细信息,其中tableType=MANAGED_TABLE或EXTENDED_...原创 2019-01-09 14:31:42 · 992 阅读 · 0 评论 -
HBASE基础命令
三.基本命令1.命名空间--区分大小写(1)创建命名空间 create_namespace 'hadoop'创建一个命名空间,并且指定属性create_namespace 'ns1', {‘key1'=>'value2’}注意:1)hbase中没有进入到某一个namespace概念,操作表格,一律带上namespace名称,否则就默认从default这个namespace中找...原创 2019-01-09 18:28:54 · 389 阅读 · 0 评论 -
HIVE分区常用操作
分区常用操作1.查看分区表中有哪些分区show partitions table_name;SHOW PARTITIONS tomcat_log PARTITION(year='2019');2.查询某个分区下的数据根据分区查询数据select table_coulm from table_name where partition_name = '2014-02-25’;...原创 2019-01-09 20:22:22 · 543 阅读 · 0 评论 -
hbase 参考列过滤器
1.代码测试数据:package hbase.hbasseAPI.Filter;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo...原创 2019-01-15 12:53:22 · 379 阅读 · 0 评论 -
hadoop解决小文件思路
1.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64MB,128MB或者256MB,现在一般趋向于设置的越来越大。后文要讨论的内容会基于128MB,这也是CDH中的默认值。为了方便后面的讨论,Fayson这里假定如果文件大小小于block size的75%,则定义为小文件。但小文件不仅是指文件比较小,如果Hadoop集群中...转载 2019-03-13 11:37:27 · 233 阅读 · 0 评论 -
Hadoop生态圈技术概述
本文对hadoop生态圈技术做一个概要的介绍,文章中的前半部分的信息大多来自于网络,这里只是按照自己的学习思路整理了下。包括如下内容:hadoop诞生记 hadoop生态圈 常见组件简介 组件下载 学习路线一、hadoop诞生记最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又...转载 2019-03-23 22:12:52 · 4079 阅读 · 1 评论 -
Hadoop 2.0工作原理学习
1 HDFS简介1.1 Hadoop 2.0介绍Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN用于进行资源管理。Hadoop 1.0和Hadoop 2.0的结构对比:...转载 2019-03-23 22:14:14 · 277 阅读 · 0 评论 -
hadoop中各组件的作用
Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…1.HDFS:分布式文件系统,隐藏集群细节,可以看做一块儿超大硬盘主:namenode,secondarynamenode从:datanode2.Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)主:Resourc...转载 2019-03-23 22:15:02 · 3415 阅读 · 0 评论 -
Hadoop之分块、分片与shuffle机制详解
一 分块(Block)HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统保证一个块存储在一个datanode上。把File划分成B...转载 2019-03-23 22:18:15 · 484 阅读 · 0 评论 -
Hive性能调校
1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive&g...转载 2019-01-14 15:28:34 · 307 阅读 · 0 评论 -
[Hive]Lateral View使用指南
1. 语法 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)* 2. 描述Lateral View一般与用户自定义表生成函数(如explode())结合使用。 如内置表...转载 2019-01-08 18:45:00 · 326 阅读 · 0 评论 -
hive中分区表(partition table):动态分区(dynamic partition)和 静态分区(static partition)
一、基本概念 hive中分区表分为:范围分区、列表分区、hash分区、混合分区等。 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列。翻译一下是:“在表的数据文件中实际上并不保存分区列的信息与数据”,这个概念十分重要,要记住,后面是经常用到。1.1 创建数据表 下面的语句创建了一个简单的分区表:复制代码create table partition_test(...转载 2019-01-14 12:27:06 · 3671 阅读 · 0 评论 -
hive里面的连接操作(join)
hive里面的连接操作其实跟SQL还是差不多的...数据准备:创建数据-->创建表-->导入数据首先创建两个原始数据的文件,这两个文件分别有三列,第一列是id、第二列是名称、第三列是另外一个表的id。通过第二列可以明显的看到两个表做连接查询的结果:[xingoo@localhost tmp]$ cat aa.txt 1 a 32 b 43 c 1[xingo...转载 2019-01-04 14:22:57 · 2586 阅读 · 0 评论 -
hbaseAPI中 rowkey使用整数表示的结果
// rowkey设置为整形1~31 转换为了16进制表示32~126转换为ASCII码的字符表示(包括32和126)127以后按照16进制表示(包括127)代码: public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir",...原创 2019-01-10 15:42:06 · 582 阅读 · 0 评论 -
从hdfs中插入数据到hbase中
package mr.hdfstoHbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.a...原创 2019-01-11 17:40:08 · 1628 阅读 · 0 评论 -
从Hbase传输数据到Hdfs
1.自定义一个类package mr.hdfstoHbase.HbaseToHdfsMapper;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Objects;...原创 2019-01-11 17:43:26 · 1359 阅读 · 0 评论 -
从hbase到hbase数据传输
1.mappackage mr.hdfstoHbase.HbaseTOHbase;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.ap...原创 2019-01-11 17:48:14 · 393 阅读 · 0 评论 -
hive 自定义函数jar发布的方法
1. 使用add jar path/test.jar;方法加入该方法的缺点是每次启动Hive的时候都要从新加入,退出hive就会失效。2. 通过设置hive的配置文件hive-site.xml 加入在配置文件中增加配置<property><name>hive.aux.jars.path</name><value>file...原创 2019-01-07 11:16:08 · 1906 阅读 · 0 评论 -
hive的row_number() 功能
1、row_number() over()排序功能:(1) row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by order by 的执行。partition by 用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方...转载 2019-01-07 11:29:05 · 4288 阅读 · 0 评论 -
hive的优化(10点)
一、表链接优化1.将大表放最后Hive假定查询中最后一个表是大表,他会将其他表先缓存起来,然后扫描最后那个表。因此通常需要将小表放在前面,或者标记那张表是大表:/*streamtable(table_name)*/2.使用相同的链接键当对3个或者更多个表进行join连接时,如果每个on子句都是用相同的连接键的话,那么只会产生一个MapReduce job。3.尽量尽早地过滤...原创 2019-01-07 14:01:32 · 180 阅读 · 0 评论 -
hive索引
创建索引hive> create index [index_studentid] on table st(studentid) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild IN TABLE index_table_st;OK Time take...原创 2019-01-07 16:19:15 · 409 阅读 · 0 评论 -
HBase--通过Java API与HBase交互(增删改)
import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoo...转载 2019-01-14 10:42:29 · 165 阅读 · 0 评论 -
Hadoop分块与分片介绍及分片和分块大小相同的原因
概念介绍分块在HDFS系统中,为了便于文件的管理和备份,引入分块概念(block)。这里的块是HDFS存储系统当中的最小单位,HDFS默认定义一个块的大小为64MB。当有文件上传到HDFS上时,若文件大小大于设置的块大小,则该文件会被切分存储为多个块,多个块可以存放在不同的DataNode上,整个过程中HDFS系统会保证一个块存储在一个datanode上。但值得注意的是如果某文件...原创 2019-03-23 22:19:17 · 605 阅读 · 0 评论