
大数据
文章平均质量分 85
楠先生
世界不会因为你的想法而改变,但你的想法会让你的世界发生改变。
展开
-
运行Mapreduce作业出现Java heap space解决方案
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号在一次吃饭间隙听到身边的朋友说到:“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”19/01/10 12:48:01 INFO mapred.JobClient: Task Id : attempt_201001061331_0002_m_000027_0, Status : FAILEDj.原创 2021-09-04 18:45:44 · 1058 阅读 · 0 评论 -
记一次MR报错:Container is running beyond physical memory limits...
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号背景较早之前项目组一次新需求上线时,需要初始化Hive中某张表的全量历史数据。该表由于历史原因导致ETL处理的时候,2015年前的数据产出文件(定长压缩文件)时为同一个ETL日期,也就是这张表的分区日期,由于涵盖多年的数据,并且数据文件较大又分为多个日期,数据存放Hive时需要按照其真实业务日期进行重分区。线上集群同时有部分Spark任务存在,所以决定采.原创 2021-09-04 18:43:42 · 1340 阅读 · 0 评论 -
CDH集群磁盘故障换盘处理
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号前言前段时间公司线上CDH集群突然异常报警,经过查验后发现是其中一个数据节点所在的服务器上某块磁盘无法读写,导致当前DataNode节点读写异常。随后登录到故障节点进行手动验证,进入到损坏磁盘的挂载目录,预创建文件进行读写操作,发现直接报错,查看报错信息,确实是当前磁盘无法读写异常。问题已经足以说明是磁盘损坏了,那接下来就是换盘操作了,由于机房不在本地.原创 2021-09-04 15:53:50 · 2113 阅读 · 0 评论 -
Spark On Yarn 提升spark submit速度
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号引言本文承接上篇 Spark on yarn运行时Jar包加载踩坑经历 来进一步分析spark-submit 通过–jars 传入本地jar包 和 HDFS上的jar包的区别,以及 spark.yarn.jars 与前两者的区别。- -jars的使用1. --jars 传入本地jar包--jars a.jar,b.jar,c.jar传入本地ja.转载 2021-09-02 22:14:00 · 512 阅读 · 0 评论 -
Hadoop数据压缩
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号压缩概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle 和 Merge 要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。由于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源,数据压缩对于节省资源、最小化磁.原创 2021-09-02 22:06:10 · 600 阅读 · 0 评论 -
hadoop-3.1.3 启动HDFS时报错ERROR: Attempting to operate on hdfs namenode as root的解决方法
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号最近在升级 Hadoop3.1.3 版本首次启动集群时报如下错误:Starting namenodes on [hadoop100]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborti.原创 2021-09-02 22:03:41 · 1672 阅读 · 0 评论 -
Azkaban任务调度工具简述
小菜鸟的个人博客已经正式上线且对外开放啦…博客访问地址:小菜鸟的大梦想欢迎各位同学扫码关注本人公众号 ↓↓↓ 更多优质内容将 首发 公众号Azkaban简述Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web .原创 2021-09-02 21:41:51 · 4949 阅读 · 0 评论