数据来源:中国软件杯—基于互联网大数据的招聘数据智能分析平台
使用工具:eclipse
环境搭建:hadoop,hive,mysql,hbase,tomcat
博客只做数据分析的流程与方法介绍,代码还在完善中,所以不做提供
闲话不多说,直接展示效果图
1.数据清洗
拿到数据集后发现数据并不是很规整,需要做一些处理,比如说去除制表符,去空或者是换行符等等,这里的处理方法比较简单,可以使用python或是java快速清洗处理。
2.数据分析(hive分析处理)
UDF分析:
UDF也就是用户自定义的函数,用于HiveQL语句中,HiveQL使用方法与Mysql类似
使用UDF做数据分析:(这里给出行键与薪资分类的方法)
1. 行键UDF的使用:
package com.org.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class get_rowkey extends UDF {
public String evaluate(int i,String key) {
long get_currentTimeMillis =System.currentTimeMillis();//获取当前时间的时间戳
long timestamp =get_currentTimeMillis+i;//参数i作为自增数,防止时间戳相同
String rowkey = timestamp+key;//参数key作为行键识别字符串,用于hbase的行键过滤器
return rowkey;
}
}
注意:类需要继承UDF,重写evaluate方法,在hiveql中自定义函数入口就是evaluate方法
使用eclipse打包,右键点击UDF的文件,选择Export
选择JAR file 进行打包
2. 薪资