数据源 video.txt
数据样例:
fQShwYqGqsw lonelygirl15 736 People & Blogs 133 151763 3.01 666 765 fQShwYqGqsw LfAaY1p_2Is 5LELNIVyMqo vW6ZpqXjCE4 vPUAf43vc-Q ZllfQZCc2_M it2d7LaU_TA KGRx8TgZEeU aQWdqI1vd6o kzwa8NBlUeo X3ctuFCCF5k Ble9N2kDiGc R24FONE2CDs IAY5q60CmYY mUd0hcEnHiU 6OUcp6UJ2bA dv0Y_uoHrLc 8YoxhsUMlgA h59nXANN-oo 113yn3sv0eo
数据样例中的字段结构:
视频唯一 id 11 位字符串
视频上传者 上传视频的用户名 String
视频年龄 &nbs

该博客介绍了在一个名为'谷粒影音'的项目中,使用Hive进行数据清洗和ETL处理的需求分析。数据源来自video.txt文件,包含了视频ID、上传者、视频年龄、类别、长度等信息。ETL需求包括:过滤字段不足10个的记录,将视频ID的分隔符从制表符改为'&',以及去除视频类别ID中的空格。文中还提到了具体的代码实现。
最低0.47元/天 解锁文章
4082

被折叠的 条评论
为什么被折叠?



