
大数据
文章平均质量分 83
haozhugogo
这个作者很懒,什么都没留下…
展开
-
rocksdb
一、概述RocksDB 改自LevelDB,是一个持久化存储的KV系统,和Redis这种内存型的KV系统不同,LevelDB不会像Redis一样狂吃内存,而是将大部分数据存储到磁盘上。数据结构:LSM-Tree(Log-Structured-Merge-Tree)。LSM从命名上看,容易望文生义成一个具体的数据结构,一个tree。但LSM并不是一个具体的数据结构,也不是一个tree。LSM是一个数据结构的概念,是一个数据结构的设计思想。整体结构:主要分为三大块:WAL(disk)→ Memtab原创 2021-04-10 22:44:55 · 713 阅读 · 1 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2017-09-09 15:07:11 · 286 阅读 · 0 评论 -
ZooKeeper典型应用场景一览
ZooKeeper典型应用场景一览数据发布与订阅(配置中心)发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。 1. 应用中用到的一些配置信息放到ZK上进行集中管理。这类场景通常是这样:应用在转载 2017-09-09 20:44:26 · 203 阅读 · 0 评论 -
Zookeeper使用--命令行
一、前言 在学习了Zookeeper相关的理论知识后,下面接着学习对Zookeeper的相关操作。二、Zookeeper部署 Zookeeper的部署相对来说还是比较简单,读者可以在网上找到相应的教程,点这里,笔者不再累赘。 Zookeeper有三种运行形式:集群模式、单机模式、伪集群模式。 以下实验都是在单机模式下进行。三、服务端 bin目录下常用的脚本解释转载 2017-11-07 11:00:00 · 293 阅读 · 0 评论 -
kafka集群搭建和使用Java写kafka生产者消费者
原文地址:http://chengjianxiaoxue.iteye.com/blog/21904881 kafka集群搭建 Java代码 1.zookeeper集群 搭建在110, 111,112 2.kafka使用3个节点110, 111,112 修改配置文件config/server.properties转载 2017-11-07 11:52:43 · 652 阅读 · 0 评论 -
Hive的元数据表结构详解
原文地址:https://www.cnblogs.com/1130136248wlxk/articles/5517909.html关键字:Hive元数据、Hive元数据表结构本文介绍一下Hive元数据中重要的一些表结构及用途,以Hive0.13为例。文章最后面,会以一个示例来全面了解一下,Hive的元数据是怎么生成和存储的。13.1 存储Hive版本的元数据表(VE转载 2017-11-08 15:04:25 · 1974 阅读 · 0 评论 -
kafka admin源代码分析
admin包定义了命令行的一些实现一、AdminOperationException.scala一个异常类,表示执行admin命令时候抛出的异常二、AdminUtils.scalaadmin一些常用工具方法:1. assignReplicasToBrokers:负责分配副本到不同的broker上。主要有两个目标:① 尽可能均匀地在不同的broker上分配副本;② 对于被分配到同转载 2017-11-06 16:11:47 · 355 阅读 · 0 评论 -
spark 运行模式的简单总结
spark-submit --master spark://192.168.8.19:7077 --deploy-mode client /Users/haozhugogo/Downloads/hdfs_wordcount.py /Users/haozhugogo/Downloads/sparktest.txt//spark自带集群跑 本机是driver,可以看到日志spark原创 2017-12-19 15:40:43 · 388 阅读 · 0 评论 -
HBase中正则过滤表达式与JAVA正则表达式不一致问题的分析和解决
HBase提供了丰富的查询过滤功能。比如说它提供了RegexStringComparator这样的函数,可以实现按照正则表达式进行过滤。它可以有效地弥补向前缀查询这样的机制,从而可以使hbase也支持了类似于like查询之类的功能。然而在实践过程中,很多人都会遇到一个问题,对于里面的正则表达式没有过于详细的介绍,一直以为是直接从JAVA等一些标准的正则表达式演化过来。直接拿过来用就可以。但是,这只...转载 2018-03-15 11:51:55 · 1217 阅读 · 0 评论 -
Spark On YARN内存分配
本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark executor作为一...转载 2018-03-03 18:41:34 · 803 阅读 · 2 评论 -
Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数
Capacity Scheduler是YARN中默认的资源调度器。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队列可以配置的参数如下:1. 资源分配相关参数(1) capacity:队列的资源容量(百分比)。 当系统非常繁忙时,应保证每个队列的容量得到满...转载 2018-04-13 13:46:22 · 1172 阅读 · 0 评论 -
Hadoop作业提交分析
Hadoop作业提交分析(一)Hadoop作业提交分析(二)Hadoop作业提交分析(三)Hadoop作业提交分析(四)Hadoop作业提交分析(五)转载 2019-06-15 13:38:36 · 176 阅读 · 0 评论 -
spark-sql createOrReplaceTempView 和createGlobalTempView区别
在讲解createOrReplaceTempView 和createGlobalTempView的区别前,先了解下Spark Application 和 Spark Session区别Spark ApplicationSpark Application 使用:针对单个批处理作业 多个job通过session交互式 不断满足请求的,长期存在的server 一个Spark j...转载 2019-07-24 18:45:09 · 2529 阅读 · 0 评论 -
zookeeper特性要点
1. zookeeper的leader选举原理是paxos。2. zookeeper中的数据按树结构存储的,客户端在zookeeper上创建的节点(znode)分为四种类型:PERSISTENT-持久化节点:客户端与zookeeper连接断开后,该节点不会被删除。PERSISTENT_SEQUENTIAL-持久化顺序编号节点:当客户端请求创建这个节点A后,zookeeper会根原创 2017-09-09 20:42:04 · 355 阅读 · 0 评论 -
经典论文翻译导读之《Google File System》
原文地址:http://www.importnew.com/3491.html【译者预读】GFS这三个字母无需过多修饰,《Google File System》的论文也早有译版。但是这不妨碍我们加点批注、重温经典,并结合上篇Haystack的文章,将GFS、TFS、Haystack进行一次全方位的对比,一窥各巨头的架构师们是如何权衡利弊、各取所需。1. 介绍我们转载 2017-08-23 09:58:46 · 556 阅读 · 0 评论 -
mongotemplate的聚合操作
看了那么文章,还是官方api最好。。。。http://docs.spring.io/spring-data/mongodb/docs/current/reference/html/#mongo.aggregation论坛上的这个可以当做例子:http://www.mkyong.com/mongodb/spring-data-mongodb-aggregation-grouping-ex原创 2017-05-30 16:25:05 · 2165 阅读 · 0 评论 -
国内最全最详细的Hadoop2.2.0集群的HA高可靠的最简单配置
原文地址:http://www.linuxidc.com/Linux/2014-01/95794p2.htm配置 HA集群需要使用nameservice ID区分一个HDFS集群。另外,HA中还要使用一个词,叫做NameNode ID。同一个集群中的不同NameNode,使用不同的NameNode ID区分。为了支持所有NameNode使用相同的配置文件,因此在配置参数中,需要转载 2017-06-22 15:42:21 · 406 阅读 · 0 评论 -
Hive安装配置指北(含Hive Metastore详解)
原文地址:http://www.cnblogs.com/linbingdong/p/5829369.htmlHive安装配置指北(含Hive Metastore详解)个人主页: http://www.linbingdong.com本文介绍Hive安装配置的整个过程,包括MySQL、Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别。转载 2017-06-22 17:42:29 · 581 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/#_3.3_hadoop_%20官方简介转载 2017-06-23 14:36:43 · 271 阅读 · 0 评论 -
Intellij idea开发Hadoop MapReduce程序
原文地址:http://www.cnblogs.com/hunttown/p/5810591.html1、首先下载一个Hadoop包,仅Hadoop即可。http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz2、打开Idea新建一个java项目。转载 2017-06-25 19:38:04 · 3265 阅读 · 0 评论 -
Hive 元数据表结构详解
原文地址:https://mp.weixin.qq.com/s?__biz=MzA3ODUxMzQxMA==&mid=2663993556&idx=1&sn=0e5291bd63426d747f32a7fd05128caa&scene=21#wechat_redirect元数据是基础,这篇文章值得一读。本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、转载 2017-06-15 09:49:31 · 19938 阅读 · 1 评论 -
hadoop配置文件加载顺序
hadoop配置文件加载顺序 用了一段时间的hadoop,现在回来看看源码发现别有一番味道,温故而知新,还真是这样的 在使用hadoop之前我们需要配置一些文件,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml。那么这些文件在什么时候被hadoop使用? 一般的在启动hadoop的时候使转载 2017-08-16 22:02:45 · 1710 阅读 · 0 评论 -
[翻译]MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large ClustersMapReduce:面向大型集群的简化数据处理摘要MapReduce既是一种编程模型,也是一种与之关联的、用于处理和产生大数据集的实现。用户要特化一个map程序去处理key/value对,并产生中间key/value对的集合,以及一个reduce程序去合并有着相同key的所转载 2017-08-19 22:42:44 · 721 阅读 · 0 评论 -
分布式哈希算法
原文地址: http://www.cnblogs.com/hapjin/p/5760463.html一,普通的Hash方式在介绍分布式哈希算法之前,先了解下普通的Hash是如何实现的。JDK中的java.util.HashMap类就实现了一个哈希表,它的特点有:①创建哈希表(HashMap)需要先指定大小,即默认创建一个能够存储多少个元素的哈希表,它的默认大小为16。②转载 2017-08-13 16:33:34 · 429 阅读 · 0 评论 -
分布式系统原理介绍读书笔记
一、数据分布方式1. 哈希方式:1)按照数据的某一特征计算哈希值 2)哈希值与服务器建立对应关系优点:需要记录的元数据信息非常简单,只需要知道哈希函数的计算方式和服务器的数量缺点:1)扩展性不好,服务器数量增加,数据都需要迁移 2)万一某一特征值的数据分布不均匀,会导致数据倾斜2. 按数据范围分布:1)将数据按特征值划分为不同的区间 2)每台服务器处理不同区间的数据 3)某区间原创 2017-09-03 10:27:23 · 953 阅读 · 0 评论