
ps auxw |head 1;ps auxw| sort -rn -k4|head -1
分号前面的是提取表头
我用hive -e 执行了一条sql
hive -e “select distinct android_id from hive_rcv_metrics where clicks>0 and day between 20190210 and 20190309" > aid_03_04
从截图上看到,真吃cpu,真吃内存

开始的时候为了快点跑,我用了spark-sql提任务,报错如下

spark-sql默认用的是yarn-client模式,当查询结果很大时driver内存不足会报错
然后我发现了hadoop一个巨大的好处
不论数据多大,都能跑完,不会出现奇奇怪怪的错误
然后我也不分一个月一个月的跑,直接一次跑完三个月
hive -e "select distinct android_id from hive_rcv_metrics where clicks>0 and day between 20190109 and 20190409" > result
耗时不到一个小时,完美
开始的时候我用hive一个一个月跑,而且不distinct,出来之后用sort -u去重
4000万行数据真慢啊,慢到接近半个小时
然后两个三千万行的文件求交集,半个小时
太慢了,考虑用spark-shell,求两个rdd的交集
本文探讨了使用Hive和Spark进行大规模数据处理的效率差异。通过对比发现,尽管Spark在小规模数据处理中表现优异,但在大规模数据处理时,由于内存限制可能导致任务失败。相比之下,Hive能够稳定处理大规模数据,即使数据量庞大也能顺利完成任务,展现出其在大数据处理方面的优势。
806

被折叠的 条评论
为什么被折叠?



