第1关：数据清洗MapReduce综合应用案例 — 招聘数据清洗

是草莓熊吖

已于 2022-11-16 17:53:11 修改

阅读量1.5w

点赞数 15

CC 4.0 BY-SA版权

文章标签： mapreduce 大数据 hadoop hdfs java

于 2022-11-15 17:55:14 首次发布

本文链接：https://blog.youkuaiyun.com/qq_61604164/article/details/127870540

该博客主要介绍了如何对包含大数据工程师职位信息的数据进行清洗，包括处理薪资、转换城市编码为城市名称，并将清洗后的数据存储到HBase数据库中。涉及的工具有MySQL、HBase和Java相关库，如阿里巴巴的FastJSON和Hadoop的MapReduce。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

根据提示，在右侧编辑器补充代码，对数据按照一定规则进行清洗。

数据说明如下：data.json；

数据所在位置：/root/data/data.json；

{
    "id":4,
    "company_name":"智联招聘网/Zhaopin.com",
    "eduLevel_name":"本科",
    "emplType":"全职",
    "jobName":"大数据工程师010",
    "salary":"20K-30K",
    "createDate":"2019-04-21T12:14:27.000+08:00",
    "endDate":"2019-05-21T12:14:27.000+08:00",
    "city_code":"530",
    "companySize":"1000-9999人",
    "welfare":"",
    "responsibility":"岗位职责：1、负责体系大数据分析的ETL的代码开发及优化；2、...",
    "place":"北京市朝阳区望京阜荣街10号首开广场5层",
    "workingExp":"1-3年"
}