使用hive+hbase做数据分析

本文介绍了如何利用Hive进行数据清洗和分析,包括使用UDF进行特定处理,然后通过HiveQL进行数据操作。接着,数据被导入到HBase中存储,并通过Java Web从HBase获取数据,最后实现数据的可视化展示。整个过程涵盖了大数据分析的主要步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据来源:中国软件杯—基于互联网大数据的招聘数据智能分析平台
使用工具:eclipse
环境搭建:hadoop,hive,mysql,hbase,tomcat
博客只做数据分析的流程与方法介绍,代码还在完善中,所以不做提供

闲话不多说,直接展示效果图
数据分析首页
数据分析搜索页

1.数据清洗

拿到数据集后发现数据并不是很规整,需要做一些处理,比如说去除制表符,去空或者是换行符等等,这里的处理方法比较简单,可以使用python或是java快速清洗处理。

2.数据分析(hive分析处理)

UDF分析:

UDF也就是用户自定义的函数,用于HiveQL语句中,HiveQL使用方法与Mysql类似
使用UDF做数据分析:(这里给出行键与薪资分类的方法)
1. 行键UDF的使用:

package com.org.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class get_rowkey extends UDF {

    public String evaluate(int i,String key) {
        long get_currentTimeMillis =System.currentTimeMillis();//获取当前时间的时间戳
        long timestamp =get_currentTimeMillis+i;//参数i作为自增数,防止时间戳相同
        String rowkey = timestamp+key;//参数key作为行键识别字符串,用于hbase的行键过滤器
        return rowkey;
    }
}

注意:类需要继承UDF,重写evaluate方法,在hiveql中自定义函数入口就是evaluate方法
使用eclipse打包,右键点击UDF的文件,选择Export
jar打包
选择JAR file 进行打包

2. 薪资

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值