
大数据
花花呼呼
这个作者很懒,什么都没留下…
展开
-
Spark RDD或Dataframe持久化的选择
背景测试数据(df,dataframe格式):800万条, 4.5G。计算配置:每个executor的memory为20G,32个核。测试语句:count条数—df.groupby("_90").count().show()持久化操作持久化操作特点代码计算时间(秒)无df.count()17只到内存以分区的形式存到集群的各机器内存中上df.pers...原创 2018-09-30 11:54:58 · 3207 阅读 · 0 评论 -
Hadoop大数据常用组件简介
文章目录1. 分布式文件系统(HDFS)1)NameNode2)SecondaryNode2. 资源管理调度框架Yarn1)ResourceManager2)ApplicationMaster3)NodeManager4)Container3. 分布式协调服务ZooKeeper4. 数据仓库工具Hive1)HiveServer25. 分布式计算框架Spark1)Spark SQL2)Spark S...原创 2019-06-04 17:29:34 · 7471 阅读 · 0 评论 -
BI工具Superset的数据可视化分析平台搭建
文章目录1. Superset简介2. Superset环境搭建步骤2.1 Anaconda的安装2.2 Superset安装3. 连接Hbase、Hive和MySQL3.1 通过Phoenix连接Hbase3.2 连接Hive3.3 连接MySQL4. Superset dashboard 示例5. Superset总结6. 参考1. Superset简介Superset由 Airbnb 开...原创 2019-07-12 17:12:24 · 4370 阅读 · 0 评论