hive 项目实战 (1) 谷粒影音需求分析

该博客介绍了在一个名为'谷粒影音'的项目中,使用Hive进行数据清洗和ETL处理的需求分析。数据源来自video.txt文件,包含了视频ID、上传者、视频年龄、类别、长度等信息。ETL需求包括:过滤字段不足10个的记录,将视频ID的分隔符从制表符改为'&',以及去除视频类别ID中的空格。文中还提到了具体的代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 数据源 video.txt  

数据样例:

fQShwYqGqsw    lonelygirl15    736    People & Blogs    133    151763    3.01    666    765    fQShwYqGqsw    LfAaY1p_2Is    5LELNIVyMqo    vW6ZpqXjCE4    vPUAf43vc-Q    ZllfQZCc2_M    it2d7LaU_TA    KGRx8TgZEeU    aQWdqI1vd6o    kzwa8NBlUeo    X3ctuFCCF5k    Ble9N2kDiGc    R24FONE2CDs    IAY5q60CmYY    mUd0hcEnHiU    6OUcp6UJ2bA    dv0Y_uoHrLc    8YoxhsUMlgA    h59nXANN-oo    113yn3sv0eo
数据样例中的字段结构:

视频唯一 id    11 位字符串
视频上传者    上传视频的用户名 String
视频年龄   &nbs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值