上周组里同学给了一个数据任务:
1.在hive上传汽车词包
2.根据汽车词包圈出指定时间段内的cookie
3.根据cookie找出这些用户的所有搜索记录
4.从所有搜索数据中找到含有明星的搜索记录
5.根据每个明星group by,计数
我的解决办法如下:
1.第一第二第三阶段我写了一个sql语句
2.第四阶段我用了python处理,因为我无法写成
select query
from sousuo
where query like
使用Shell控制HQL执行:多阶段串行与阶段内并行处理
本文讲述了如何利用Shell脚本控制HQL执行,确保不同阶段串行执行而阶段内部并行处理。通过案例分析了在大数据处理任务中,如何优化SQL以避免过多的mapper,以及如何使用后台启动和done文件来协调多阶段任务的执行,保证数据处理的效率和正确性。
上周组里同学给了一个数据任务:
1.在hive上传汽车词包
2.根据汽车词包圈出指定时间段内的cookie
3.根据cookie找出这些用户的所有搜索记录
4.从所有搜索数据中找到含有明星的搜索记录
5.根据每个明星group by,计数
我的解决办法如下:
1.第一第二第三阶段我写了一个sql语句
2.第四阶段我用了python处理,因为我无法写成
select query
from sousuo
where query like

被折叠的 条评论
为什么被折叠?
