
Hadoop
阳沉
这个作者很懒,什么都没留下…
展开
-
hive以5分钟间隔处理数据
加粗样式使用unix_timestamp()获取当前时间戳(以秒为单位)加粗样式使用from_unixtime()处理时间戳对时间戳进行处理,得到需要的时间例如:获取前20分钟的五分钟间隔时间。select unix_timestamp(),from_unixtime(unix_timestamp()),from_unixtime((unix_timestamp()/300-5)*300) start_time,from_unixtime((unix_timestamp()/300-4)*300)原创 2021-11-12 11:18:59 · 2886 阅读 · 0 评论 -
Hadoop数据压缩的类型和优缺点
Snappy优缺点优点压缩速度极快缺点不支持split应用场景Map到Reduce的中间数据压缩处理Bzip2优缺点优点超高压缩率支持split缺点压缩速度慢应用场景数据用的较少的情况Lzo优缺点优点压缩率和压缩速度适宜支持split缺点非hadoop自带压缩率低于gzip应用场景主流,单个文件越大,lzo优点越明显gzip优缺点优点压缩率比较高缺点不支持split应用场景 在应用中处理gzip格式的文件就和直接处原创 2021-01-18 23:07:38 · 326 阅读 · 0 评论 -
Azkaban配置与入门案例
什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban特点1)兼容任何版本的hadoop2)易于使用的Web用户界面3)简单的工作流的上传...原创 2020-11-07 16:56:26 · 368 阅读 · 0 评论 -
多台机器相互ssh免密登录
环境准备现有三台机器,实现相互免密登录ip信息如下hadoop001:192.168.33.130hadoop002:192.168.33.131hadoop003:192.168.33.132将hostname加入/etc/hosts文件尾部192.168.44.130 hadoop001192.168.44.131 hadoop002192.168.44.132 hadoop003分别在三台机器创建/root/.ssh目录mkdir /root/.ssh生成秘钥在ha原创 2020-10-14 10:43:12 · 1319 阅读 · 1 评论 -
Hive调优
Fetch抓取hive中对某些情况的查询可以不用MapReduce计算。例如select * from emp,可以简单的读取emp文件,输出结果。在hive-default.xml.template文件中的hive.fetch.task.conversion默认为more,老版本默认为minimal。该值设为more后,在全局查找、字段查找和limit查找等都不使用MapReduce。<property> <name>hive.fetch.task.conve原创 2020-09-22 22:45:44 · 126 阅读 · 0 评论 -
Hive自定义函数
使用idea编辑器实现firstudf函数(判断值是否为空,不为空返回小写+999)导入依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version></dependency>package udf;import org.apache.原创 2020-09-21 16:14:50 · 148 阅读 · 0 评论 -
Hive基础HQL
Hive基本数据类型基本类型 hive数据类型 java数据类型 长度 例 tinyint byte 1字节 smallint short 2字节 int int 4字节 ..原创 2020-09-18 22:14:06 · 631 阅读 · 0 评论 -
MapReduce连接查询入门
MapReduce连接查询入门MapReduce连接查询分为reduce连接查询和map连接查询。reduce阶段连接查询缺点:容易出现数据倾斜解决方法:使用map阶段连接查询Map阶段连接查询记录商品信息文件link/shop(商品id,商品名称)1 小米2 华为3 联想记录订单信息文件link/order(订单id,商品id,商品数量)1 1 12 2 23 3 34 1 45 2 56 3 6将order文件和shop文件合并,输出格原创 2020-09-16 11:19:01 · 366 阅读 · 0 评论 -
Centos7Hive和Mysql的安装
Hive和Mysql的安装基于centos7且已安装hdfsHive下载前往hive.apache.org/download.html界面下载hive解压使用tar -zxvf 压缩包bin 二进制文件目录conf 配置文件目录(主要操作)scripts脚本文件目录配置环境变量在/etc/profile文件中添加如下代码(文件末尾)vi /etc/profile#HIVE_HOME指向安装目录export HIVE_HOME=/usr/soft/hiveexport PA原创 2020-09-15 22:42:10 · 334 阅读 · 0 评论 -
基于Centos7Hadoop分布式搭建
Hadoop分布式搭建文章目录Hadoop分布式搭建配置环境变量更改/etc/profile文件更新环境变量配置hadoop1、编辑/usr/soft/hadoop321/etc/hadoop/core-site.xml2、编辑/usr/soft/hadoop321/etc/hadoop/hdfs-site.xml3、初始化namenode4、修改用户配置(可选)5、指定JAVA_HOME6、开启hdfs服务7、克隆虚拟机8、设置master对slave1和slave2的免密登录9、分布式hadoop:h原创 2020-09-15 22:40:02 · 96 阅读 · 0 评论 -
Hadoop序列化自定义对象
Hadoop序列化自定义对象介绍序列化:将内存中的对象,转换为字节序列便于存储(持久化)反序列化:将字节序列或硬盘的持久化数据,转换成内存中的对象。作用一般来说,对象只存在于内存中,关机断电就消失,只能由本地的进程使用,不能发送到网络上的另外一台计算机。序列化则可以将对象存储在硬盘,免于断电的干扰,以可以将对象发送个远程计算机。实现java实现序列化在java中通过实现serializable接口实现序列化但java的序列化是一个重量级的序列化框架,一个对象被序列化后,会附带许多额外的信原创 2020-09-15 10:05:49 · 152 阅读 · 0 评论