将win本地文件数据导入hive表中(通用方法)

本文详细介绍了如何将本地(Windows)的任意格式数据,如JSON,导入到Hive表中。首先,通过读取文件、正则处理和格式转换生成适合Hive的文本文件,接着将文件上传到Linux服务器并检查编码,最后在Hive中创建表,将数据文件移动到Hive的HDFS路径,实现数据入库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

重要说明:

1、本地文件理论上可以是任意格式的数据(.txt , .json , 字符串...)

2、过程完全可以复用(同种类型问题)

数据源示例:json格式数据

[
    {
        "cityId": 19,
        "cityName": "北京",
        "province": "北京",
        "shortWord": "B",
        "pinyin": "beijing"
    },
    {
        "cityId": 258,
        "cityName": "上海",
        "province": "上海",
        "shortWord": "S",
        "pinyin": "shanghai"
    },
    {
        "cityId": 46,
        "cityName": "广州",
        "province": "广东",
        "shortWord": "G",
        "pinyin": "guangzhou"
    },
...

]

一、对“本地文件数据”进行处理

步骤一:将文件内容读取出来并存为字符串(若文件较大,可分别存为多个字符串)

步骤二:使用正则表达式捕获所需的数据(正则方法简便、高效且通用性强;)

步骤三:将捕获到的数据按行按指定格式写入一个.txt的文本文档中(用于hive表的数据源)

注意:过程中注意字符的编码格式(linux系统通用“UTF-8”)

#-
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值