Hadoop
Jackie_ZHF
日日新 苟日新 又日新
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce的调优总结
MapReduce的调优总结 Mapreduce服务器调优 1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候,打开的文件数量,默认为10个. 2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M. 3. mapreduce.map.sort.spill.p...原创 2018-02-26 19:08:06 · 884 阅读 · 2 评论 -
对HBase集群做跨集群数据迁移
概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使...原创 2019-01-25 20:07:46 · 1694 阅读 · 0 评论 -
LSM树(Log-Structured Merge Tree)存储引擎
LSM树(Log-Structured Merge Tree)存储引擎LSM树(Log-Structured Merge Tree)存储引擎代表数据库:nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入...转载 2019-01-10 19:38:17 · 296 阅读 · 0 评论 -
HBase优化 | HBase写吞吐场景资源消耗量化分析及优化
目录1概述 12 HBase 写链路简要分析 23 Flush&Compaction 24系统开销定量分析 34.1 系统变量 44.2 磁盘容量开销量化分析 54.3 网络开销量化分析 65总结 136参考文献 13 1概述HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统。 网上关于...原创 2019-01-10 19:30:50 · 818 阅读 · 0 评论 -
Hive常用函数大全
文章目录1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS NOT NULL 1.9 9、LIKE比较: LIKE 1.1...原创 2018-12-23 21:06:17 · 429 阅读 · 0 评论 -
Hive drop table时没有反应
Hive drop table时没有反应Hive drop table时没有反应,于是强制中断。网上找了很久的方法,终于在一个大神那里找到了解决之法。但写的略简单,下面对其进行补充。mysql> show variables like 'char%';第一步:进入mysql,输入:show variables like 'char%'。显示如下 此时的ch...转载 2018-12-11 22:08:08 · 445 阅读 · 0 评论 -
Source、Channel、Sink有哪些数据类型
Source、Channel、Sink有哪些类型 Flume Source Source类型 | 说明 Avro Source | 支持Avro协议(实际上是Avro R...原创 2018-12-10 17:44:05 · 1593 阅读 · 1 评论 -
Hadoop2.x搭建部署
Hadoop2.X HA搭建四台机器:hadoop1,hadoop2,hadoop3,hadoop4 NN DN ZK ZKFC JN RM NM(任务管理) Hadoop1 Y Y Y Hadoop2 Y Y Y Y Y Y Y Hadoop3 Y Y Y Y Hadoop4 Y Y ...原创 2018-07-10 19:27:29 · 381 阅读 · 0 评论 -
HBASE 的二级索引之— —Global Indexing
二级索引之— —Global Indexing转载自朋友的博客 技术分享,https://my.oschina.net/u/3511143/blog/1808831 侵权必究,转载请说明1.1 说明在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描,很大程度上...转载 2018-07-10 19:15:43 · 540 阅读 · 0 评论 -
Python Hadoop使用时注意的坑-- MRJob框架及python环境运行
时间有限复杂的问题简单说,什么都不如来干货~使用MRJob框架 时用网上说的提交任务到集群的命令,程序会跑着挂掉。。。报143 127 的错误!!后来才发现正确的是:本地运行命令 python mypyfile.py -r local <input> python mypyfile.py -r local <input> ...原创 2018-06-29 11:34:49 · 3144 阅读 · 0 评论 -
误删HBase数据如何抢救?
数据保护当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:如果误删一张表的有多个family里的数据,需要都执行一下:alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }设置 KEEP_...转载 2018-06-29 11:02:57 · 420 阅读 · 1 评论 -
Python Hadoop的Wordcount入门示例
Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与Hadoop 关联进行编程,看看位于/src/examples/python/WordCount.py 的例子。我们将...原创 2018-05-29 10:16:33 · 2473 阅读 · 0 评论 -
Hadoop之block副本放置策略 Rack机架感知源码
注意:block副本放置策略相关描述在Hadoop官网和源码实现与描述不一致。官网是第一个和第二个副本在同一机架上,第三个在不同机架上 更多随意。但是具体实现如下:•Block的副本放置策略 –第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。 –第二个副本:放置在于第一个副本不同的机架的节点上。 –第三个副本:与第二个副本相同机架...原创 2018-03-05 17:41:23 · 2095 阅读 · 0 评论 -
HDFS配置参数及优化之实战经验(Linux hdfs)
HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中...原创 2018-02-25 15:18:08 · 2550 阅读 · 0 评论 -
HDFS分布式文件系统特征block底层
HDFS分布式文件系统特征block底层转载注明出处: http://blog.youkuaiyun.com/jackie_zhf/article/details/79467624众多分布式文件系统为什么用HDFS? a、可以移动计算到数据所在节点; b、就近读取数据文件和计算 Look 代码: private static void blk() throws Exception { ...原创 2018-03-07 10:33:16 · 561 阅读 · 0 评论 -
Hive性能优化(全面)
Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。Jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。Sum,count,max,min等UDAF,不怕数据倾斜问题,hado...原创 2019-04-04 22:41:37 · 428 阅读 · 4 评论
分享