
Hadoop
文章平均质量分 79
Kelvin-Liang
Nothing is impossible
展开
-
SPARK & HIVE现在ACID的支持现状
在讨论之前,先介绍ACID是什么。原子性(Atomicity)原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。一致性(Consistency)事务前后数据的完整性必须保持一致。隔离性(Isolation)事务的隔离性是多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作数据所干扰,多个并发事务之间要相互隔离。持久性(...原创 2019-11-12 15:22:46 · 1407 阅读 · 0 评论 -
性能测试 hive Use ANALYZE table columns
测试记录数: 346804534 数据大小:20GBselect eventchannel from event8 where pdate = '2015-09-01' and lower(eventchannel) rlike 'window' and eventsourcemachine rlike 'changhong' group by eventchannel having原创 2015-09-14 10:00:24 · 2117 阅读 · 0 评论 -
说说我对spark-sql的job的参数调优
首先要说的是机器配置namenode/datanode: cpu : 8core memory: 56G我现在是基于yarn+spark的架构来说。现在设置 yarn.nodemanager.resource.memory-mb =51200 (50GB) --每个node可以最多使用50GB作为 container 的分配yarn.scheduler.minimum原创 2016-02-19 20:57:26 · 2675 阅读 · 0 评论 -
修改hadoop的备份系数dfs.replication
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。本文就讨论一下这个问题。Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.如何变更备份系数?首先stop-all.sh停止节点,修改master节转载 2016-06-27 09:42:48 · 2614 阅读 · 0 评论 -
Hadoop2.0的HA介绍
Hadoop2.0的HA介绍时间 2014-05-03 17:42:25Linux公社原文 http://www.linuxidc.com/Linux/2014-05/101174.htm主题HadoopNFS前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置转载 2016-07-14 16:55:00 · 478 阅读 · 0 评论 -
Kerberos and SPNEGO
Kerberos and SPNEGOThursday, 23 September 2010 19:03Kerberos is a network authentication protocol for client/server applications, and SPNEGO provides a mechanism for extending Kerberos to转载 2016-07-15 11:46:22 · 976 阅读 · 0 评论 -
详解HDFS Short Circuit Local Reads
详解HDFS Short Circuit Local ReadsHadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。最初设计的时候,这种Local Reads和Remot转载 2016-08-11 11:14:19 · 460 阅读 · 0 评论 -
CentOS7安装篇(hadoop平台搭建)
为了更好学习大数据,需要搭建一个学习的环境。有误的地方希望大家共同指教。首先介绍下我的硬件:2台pc机, 酷睿i7 ,16G 内存, 2T 硬盘===============================================================================安装虚拟机VMware 10.0在VMware上安装系统 CentOS7原创 2015-04-20 16:26:59 · 1207 阅读 · 0 评论 -
impala+hue
下载impala 和 huehttp://www.cloudera.com/documentation/enterprise/latest/topics/cdh_vd_cdh_package_tarball.htmlhttps://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.5.0/RPMS/x86_64/impala i原创 2016-02-23 00:43:09 · 2942 阅读 · 0 评论 -
新旧版本FileInputFormat获得输入分片的不同
有接触过hadoop的都应该清楚InputFormat 里有个getSplits方法,用来获得输入分片,并最终影响map task的数量。网上关于split的描述千奇百怪,各家说法都不一样,前几天一个老师跟我讲的FileInputFormat的 split的概念和我脑子里一直记得的split的概念不一样,着实让我困扰,甚至开始怀疑人生了。。。今天把新旧版本的FileInputFormat的转载 2015-03-20 21:23:49 · 926 阅读 · 0 评论 -
hadoop mapreduce 对于压缩文件的支持利与弊
hadoop对于压缩文件的支持hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具转载 2015-03-20 22:55:31 · 1642 阅读 · 0 评论 -
Experience on Namenode backup and restore --- checkpoint......
Hadoop version: Hadoop 2.2.0.2.0.6.0-0009Well, We can do this by building Secondary Namenode, Checkpoint node or Backup node.Example:Assuming you have a Secondary Namenode.1. Check secondary n原创 2014-03-27 11:15:46 · 1253 阅读 · 0 评论 -
HDFS daily maintenance,, useful command
Hadoop version: Hadoop 2.2.0.2.0.6.0-00091.datanode reportcmd>%hadoop_home%/bin/hdfs dfsadmin -report2.datanode balancercmd>%hadoop_home%/bin/hdfs balancer -threshold 5 -policy datanode3. Re原创 2014-03-27 17:37:06 · 815 阅读 · 0 评论 -
install hadoop2.2 trouble shooting
1. access denies on clusterproperties.txt原创 2014-05-04 23:41:32 · 612 阅读 · 0 评论 -
Experience on Namenode backup and restore --- checkpoint
Hadoop version: Hadoop 2.2.0.2.0.6.0-0009Well, We can do this by building Secondary Namenode, Checkpoint node or Backup node.Example:Assuming you have a Secondary Namenode.1. Check sec原创 2014-06-13 16:07:39 · 1249 阅读 · 0 评论 -
Read note of HDFS User Guide
CheckPoint Node:The Checkpoint node's memory requirements are on the same order as the NameNode. The Checkpoint node is started by (execute on checkpoint node)bin/hdfs namenode -checkpoint t原创 2014-03-26 21:16:29 · 834 阅读 · 0 评论 -
restore hadoop primary namenode from secondary namenode checkpoint step by step
senario 1) install namenode原创 2014-04-17 17:07:44 · 953 阅读 · 0 评论 -
简单说说MapReduce, Tez, Spark
云码最近邀请来yunmar老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架。我隔壁组在实验Spark,想将一部分计算迁移到Spark上转载 2015-01-25 09:09:01 · 6790 阅读 · 0 评论 -
Hive tips optimil query on maper and reducer
hive优化之------控制hive任务中的map数和reduce数一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自转载 2015-03-16 14:40:11 · 586 阅读 · 0 评论 -
MapReduce应用中CombineFileInputFormat原理与用法
MapReduce应用中CombineFileInputFormat原理与用法HDFS本身被设计来存储大文件,但是有时难免会有小文件出现,有时很可能时大量的小文件。通过MapReduce处理大量小文件时会遇到些问题。MapReduce程序会将输入的文件进行分片(Split),每个分片对应一个map任务,而默认一个文件至少有一个分片,一个分片也只属于一个文件。这样大量的小文件会导致大转载 2015-03-20 10:37:00 · 1268 阅读 · 0 评论