ps auxw |head 1;ps auxw| sort -rn -k4|head -1
分号前面的是提取表头
我用hive -e 执行了一条sql
hive -e “select distinct android_id from hive_rcv_metrics where clicks>0 and day between 20190210 and 20190309" > aid_03_04
从截图上看到,真吃cpu,真吃内存
开始的时候为了快点跑,我用了spark-sql提任务,报错如下
spark-sql默认用的是yarn-client模式,当查询结果很大时driver内存不足会报错
然后我发现了hadoop一个巨大的好处
不论数据多大,都能跑完,不会出现奇奇怪怪的错误
然后我也不分一个月一个月的跑,直接一次跑完三个月
hive -e "select distinct android_id from hive_rcv_metrics where clicks>0 and day between 20190109 and 20190409" > result
耗时不到一个小时,完美
开始的时候我用hive一个一个月跑,而且不distinct,出来之后用sort -u去重
4000万行数据真慢啊,慢到接近半个小时
然后两个三千万行的文件求交集,半个小时
太慢了,考虑用spark-shell,求两个rdd的交集