
大数据
飞空之羽
一个自命不凡的老程序员,公众号:飞空之羽的技术手札,欢迎关注了解更多有深度的技术分析
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CDH的安装与配置
基础环境要求OS: CENTOS 7.1及以上版本(推荐最小化安装,不然部分包版本会有冲突)JAVA: oracle JDK 1.7(不要使用OPENJDK)MYSQL: 5.6.12以上需使用的安装文件:CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel CDH离线安装文件CDH-5.8.0-1.cdh5.8.0.p0.42-el7.parcel.s...原创 2020-04-17 10:00:39 · 648 阅读 · 0 评论 -
HIVE使用时的问题记录
优化 Spark 应用的一个主要手段就是合理设置任务执行的并行度,尽可能的利用集群资源,从而提高执行效率。而影响 spark 并行度的因素主要有如下几个:RDD 的分区数(Partition )Spark 应用默认会为每一个 RDD 分区创建一个 Task, 所以输入 RDD 的分区数直接影响待分配的 Task 总数,Task 任务数如果少于分配的计算资源(cores ),则可能造成部分资...原创 2020-04-17 09:50:23 · 1037 阅读 · 0 评论 -
Spark任务并行度分析
优化 Spark 应用的一个主要手段就是合理设置任务执行的并行度,尽可能的利用集群资源,从而提高执行效率。而影响 spark 并行度的因素主要有如下几个:RDD 的分区数(Partition )Spark 应用默认会为每一个 RDD 分区创建一个 Task, 所以输入 RDD 的分区数直接影响待分配的 Task 总数,Task 任务数如果少于分配的计算资源(cores ),则可能造成部分资...原创 2020-03-30 16:32:22 · 1180 阅读 · 0 评论 -
Spark on Yarn模式下的资源分配
Spark程序以Hadoop Yarn作为集群管理器时,运行时所需资源的分配完全由Hadoop Yarn进行管理,相关的配置参数也分成Spark本身以及Hadoop Yarn两部分。以下配置以Spark-1.6.0和Hadoop 2.6.0为标准,部署模式为yarn-cluster。(client模式下个别参数会有区别主要是涉及到driver的参数应该替换为am)Spark配置参数内存配...原创 2020-03-30 16:29:42 · 814 阅读 · 5 评论 -
Parquet文件格式解析
介绍Parquet是目前比较流行的大数据文件列存储格式,主流的大数据计算框架都对其有良好的支持,包括spark,hive,impala等。相对于传统的行存储模式,列存储主要有以下优点:可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Enc...原创 2020-03-23 16:02:12 · 3168 阅读 · 0 评论 -
CDH与kafka整合的问题记录
CDH 版本:CDH-5.15.0Spark 版本:SPARK2-2.3.0.cloudera3OS: centos 6.2针对CDH的安装以及与kafka的整合遇到的问题进行记录问题记录使用 systemctl start cloudera-scm-server 启动时没有反应,也没有生成日志使用 service cloudera-scm-server start 才行,原因不明...原创 2020-03-23 11:57:02 · 342 阅读 · 0 评论