
hadoop
文章平均质量分 70
莫叫石榴姐
10多年IT经验,数仓及SQL领域教练及专家,曾作为主面试官,面试多个候选人
展开
-
数据同步工具datax开发详解及案例实战
一、dataX概览1.1 DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。1.2 FeaturesDataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插原创 2020-07-09 15:00:23 · 1994 阅读 · 0 评论 -
java设计模式之建造者模式
0 需求盖房项目需求(1)需要建房子:这一过程分解为,打桩(打地基)、砌墙、封顶 (2)房子有各种各样的,比如普通房、高楼、别墅,各种各样的房子过程虽然一样,但是要求不要相同 (3)请编写程序,完成需求1 传统方式解决方案(1)思路分析(2) 需求实现步骤1:构建抽象类定义修放在的步骤package com.dandan.builder;public abstract class AbstractHouse { //定义打地基 public abst原创 2021-03-07 23:49:54 · 284 阅读 · 2 评论 -
java读取properties配置信息工具类编写
0 引言在项目中通常一些配置信息是要写在配置文件中的,方便修改参数,能起到流程自动化的目的,本文对Properties类如何读取配置文件信息的方法进行了详细讲解1 java properties对象(1)Java中有个比较重要的的类Properties(java.util.Properties),是代表一个持久的一套详细属性,属性可以被保存到一个流或从流中加载的类。以下是关于属性的要点: 属性列表中每个键及其对应值是一个字符串。 一个属性列表可包含另一个属性列表作为它的“默认”,原创 2021-03-06 18:23:58 · 459 阅读 · 0 评论 -
小文件给Hadoop集群带来的影响
1 小文件的定义小文件指的是那些size比HDFS的block size(默认128M)小的多的文件。Hadoop适合处理少量的大文件,而不是大量的小文件。2 小文件带来的问题 首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样namenode内存容量严重制约了集群的扩展。 ...原创 2021-03-04 21:34:32 · 533 阅读 · 2 评论 -
错误信息:ERROR StreamMetadata:Error writing stream metadata StreamMetadata...
错误信息:ERRORStreamMetadata:ErrorwritingstreammetadataStreamMetadata...2021-03-04 12:44:36 ERROR StreamMetadata:91 - Error writing stream metadata StreamMetadata(560a0eee-4f40-4754-ae1b-30f3763e8214) to C:/Users/Dandan/AppData/Local/Temp/temporary-e65...原创 2021-03-04 18:29:56 · 851 阅读 · 1 评论 -
HBase块缓存
块缓存HBase提供了两种不同的BlockCache实现,来缓存从HDFS中读取的数据:默认的on-heapLruBlockCache和BucketCache(通常是off-heap)。本节讨论每个实现的优点和缺点、如何选择适当的选项以及每种配置选项。缓存选择LruBlockCache是原始实现,完全在Java堆内。BucketCache是可选的,主要用于保持块缓存数据脱离堆,尽管BucketCache也可以是文件支持的缓存。当您启用BucketCache时,您将启用两层缓存系统。我...转载 2021-02-01 14:07:39 · 988 阅读 · 0 评论 -
HBase经典面试常问问题汇总
1 每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据答:看到这个题目的时候我们要思考的是它在考查什么知识点?我们来看看要求:1)百亿数据:证明数据量非常大2)存入HBase:证明是跟HBase的写入数据有关3)保证数据的正确:要设计正确的数据结构保证正确性4)在规定时间内完成:对存入速度是有要求的那么针对以上的四个问题我们来一一分析1)数据量百亿条,什么概念呢?假设一整天60x60x24 = 86400秒都在写入数据,那么每秒的写入条数高达100原创 2021-01-27 10:38:27 · 1515 阅读 · 1 评论 -
一文带你全面了解Spark任务调度机制
0 Spark 任务调度机制在工厂环境下,Spark集群的部署方式一般为YARN-Cluster模式,之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。1 Spark任务提交流程Spark YARN-Cluster模式下的任务提交流程,如下图所示:标YARN-Cluster任务提交流程题...原创 2020-12-05 21:38:40 · 795 阅读 · 0 评论 -
读懂Spark分布式数据集RDD
SparkRDD是学习熟悉Spark的基本概念,Spark编程的核心也是围绕RDD展开,因此了解RDD的概念至关重要,他是spark基本数据的抽象,是spark的基本数据结构,是spark的基本对象。本文主要也是讲解了spark RDD的基本概念及其创建方法。原创 2020-08-19 00:34:54 · 1125 阅读 · 2 评论 -
Redis集群删除后重建后报:unrecoverable erro:corrupted cluster config file)错误解决方案
0. 现象redis某节点出现宕机,删除后重新部署出现如下问题:unrecoverable erro:corrupted cluster config file2.原因分析/var/lib/redis/nodes.conf,频繁重启虚机的过程中文件破坏,信息不完整或数据不一致造成。3. 解决方案步骤1:数据平台中停止Redis服务步骤2:删除Redis。步骤3:删除每个节点上的dump.rdb文件和nodes.conf文件删除方法:利用xcall.sh脚本删掉原创 2020-06-10 17:58:28 · 3397 阅读 · 0 评论