
大数据分析
文章平均质量分 52
月亮与六便士丶
http://ihoge.cn
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
巧用Hive自带函数进行多字段分别去重计数统计
巧用Hive自带函数进行多字段分别去重计数统计1-group by 和 distinct大前提:大表统计能使用group by就不要使用distinct!!尤其是在数据量非常大的时候,distinct会将所有的统计信息加载到一个reducer里取执行,这就是所谓的数据倾斜。而group by会把相同key的记录放到一个reducer区计算,因此效率会提高很多。业务需要对一个分区内一百亿...原创 2018-11-12 14:58:52 · 10668 阅读 · 1 评论 -
《Pyflink》Flink集群安装,Python+Flink调研
Flink集群安装,Python+Flink调研Flink集群部署下载对应版本安装包:https://flink.apache.org/downloads.html实验环境为hadoop2.7, scala2.11 所以下载flink-1.7.1-bin-hadoop27-scala_2.11.tgz配置conf/flink-conf.yamljobmanager.rpc.add...翻译 2019-01-29 19:25:16 · 18679 阅读 · 9 评论