
Hadoop
文章平均质量分 74
雨钓Moowei
一只
被硅基虫子调戏的
碳基猿
展开
-
Hadoop2.2.0伪分布式中HDFS简述
Hadoop2.x的伪分布式下的HDFS概述原创 2016-05-26 13:48:40 · 1875 阅读 · 0 评论 -
虚拟化技术(一)——虚拟化简介
一、云计算当年随着云计算的概念被大肆炒作,近乎妇孺皆知,至于它实际是否如媒体宣传的那样,在此不做评论,我们只探讨技术。云计算的理念是使人们(目前主要是企业)可以像用电一样使用计算资源。按照我的理解云计算就是将大量的物理服务器的CPU,磁盘,内存等硬件资源集中起来,将他们组成一个大的逻辑概念上的资源池,即进行逻辑上抽象的“池化”,从外面看上去他就是一个整体,需要注意的是这里的"资源池"中最小的粒...原创 2019-01-20 13:07:12 · 2422 阅读 · 0 评论 -
虚拟化技术(二)——常见的虚拟化技术
之前大致介绍了什么是虚拟化,并以CPU的虚拟化为例进行简要介绍,纠正一些人们对于虚拟化的误解!那本本节就来说一说常见的虚拟化技术!概述上节提到,以笔者为例,平时在PC上使用比较多的虚拟化是Vmwear(一个桌面软件,当然偶尔也会使用Virtual Box,后者是一个开源软件功能依旧很强大),这类软件可以在windows上安装linux虚拟机(用户学习linux系统,或者安装hadoop集群进...原创 2019-01-20 13:10:00 · 2217 阅读 · 0 评论 -
虚拟化技术(四)——Container技术
概述前面介绍了。因为虚拟机中Guest OS开销太大,会造成隔离的虚机越多资源被浪费的就越多的情况出现。所以有人就会想,可不可以不启动Guest OS,而是直接使用Host OS来模拟一个相对完整的操作系统呢。这样就不需要再在Host OS上跑Guest OS,按照这个思路,逐渐发展出来了操作系统级的虚拟化技术,就是利用操作系统本身的功能来实现虚拟化,这就是Container技术 。结构如下图(...原创 2019-01-20 13:26:17 · 803 阅读 · 0 评论 -
(DDIA)SQL与NoSQL数据模型简介
翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)一、SQL与NOSQL起源与优劣对比1.1、SQL今天最著名的数据结构可能就是SQL了,一种基于Edgar Codd在1970年提出的关系模型: 数据被组织成关系(SQL中的表),其中每个关系是一个无序的元组集合(SQL中的行), 关系模型是一个理论...翻译 2019-01-26 14:33:07 · 902 阅读 · 0 评论 -
(DDIA)数据存储与检索(一)
翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)Storage And Retrieval一个数据库最基本的要具有两个功能:当你给它一些数据的时候它可以帮你存储数据,之后当你需要这些数据时,他可以返回给你所需要的数据。你(应用程序开发人员)向数据库提供固定格式的数据,稍后你就可以再次请求获取这些数...翻译 2019-02-14 22:47:59 · 1351 阅读 · 0 评论 -
(DDIA)数据存储与检索(二)——LSM简介
SSTables and LSM-Trees在上一篇文章《(DDIA)数据存储与检索(一)》的图3-3中,每个日志结构的segment文件存储的都是键值对。 这些key-value会按照他们被写入的顺序存储,并且在日志中后加的key-value的值更有用。现在我们可以对segment文件的格式做一个简单的更改。 我们要求key-value对的序列按键排序。 乍一看,这个要求似乎破坏了顺序写的优...翻译 2019-02-14 22:47:21 · 880 阅读 · 0 评论 -
(DDIA)数据存储与检索(三)——B-tree
翻译《Designing Data-Intensive Applications》作者:Martin Kleppmann译者:雨钓(有增改)B-Tree目前我们所讨论的日志结构的索引已经被广泛认可,但是他们却不是最普遍的索引类型。被用于构建索引的最普遍的数据结构于此有很大的不同,我们称之为:B-Tree在1970年引入,不到10年之后,已经发展到“无所不在”,B-trees经受住了时间的...翻译 2019-02-14 22:16:17 · 387 阅读 · 0 评论 -
Kafka Consumer
客户端从kafka集群中消费数据,同时对于kafka broker的失败客户端可以自动进行处理,也可以自动的适应topic partition在集群间的迁移。允许使用consumer group来与broker进行交互以实现负载均衡。consumer维护着到broker的TCP链接以便获取数据。在使用consumer之后如果没有关闭这些链接的话会导致资源泄露,consumer...翻译 2019-02-14 22:49:19 · 1376 阅读 · 0 评论 -
Spark——Chapter2:Spark's Basic Architecture
翻译:《Spark: The Definitive Guide 》Author:Bill Chambers and Matei Zaharia译者: 雨钓(有增改)Spark Applications一個spark应用程序包含一个driver process 程序和一系列 executor processes,driver process负责在你集群的一个节点上执行你的main...翻译 2019-04-05 20:52:40 · 483 阅读 · 0 评论 -
Hive-1.1.0的注意事项之transform的坑
hive transform 的坑原创 2017-04-16 23:19:20 · 3710 阅读 · 0 评论 -
Hive调用Java类ReflectUDF
hive调用java类原创 2017-04-16 23:02:27 · 3797 阅读 · 0 评论 -
hue安装记录_编译源码安装
hue(CDH)安装原创 2017-03-29 20:22:38 · 4435 阅读 · 0 评论 -
Hadoop2.2.0伪分布式搭建简述
使用Vmware10+Hadoop2.2.0+redHat6.3在单节点上搭建Hadoop伪分布式,流程简述。原创 2016-05-25 19:26:06 · 8485 阅读 · 1 评论 -
zookeeper简介及其搭建
zookeeper简介:zookeeper即分布式数据同步服务,具有数据同步,分布式锁等等功能,Zookeeper集群必须是奇数台,故要保证可靠性至少要三台。理论上至少要保证一半以上的机器运行即可。分leader和Follower。leader只有一个。Follower可以有多个,当leader宕掉后,会在在其余Follower中选举一个作为leader。数据同步是指:每台Cilent ...原创 2016-05-31 22:04:10 · 1263 阅读 · 0 评论 -
Hive0.13.0简介
Hive0.13.0简单介绍原创 2016-06-18 21:19:17 · 8333 阅读 · 0 评论 -
Hadoop2.2.0伪分布式之MapReduce简介
Hadoop中的MapReduce简述原创 2016-05-26 15:13:19 · 9224 阅读 · 3 评论 -
Centos7离线安装Mysql_解压包安装
linux离线安装mysql原创 2017-03-29 19:57:47 · 3934 阅读 · 0 评论 -
Oozie(CDH)安装记录
oozie-4.1.0-cdh5.8.0安装记录原创 2017-03-29 20:06:49 · 3675 阅读 · 0 评论 -
Hive-1.1.0的注意事项之元数据库建表时的字段编码问题
Hive matestore编码问题原创 2017-04-16 22:21:09 · 3163 阅读 · 0 评论 -
HDFS空间占用问题解决
HDFS文件系统问题原创 2017-03-29 20:29:32 · 11153 阅读 · 1 评论 -
Spark——Chapter3:A Tour of Spark’s Toolset
Spark 组成: lower-level APIS , Structured APIs 以及一系列附加的函数库Running Production Applicationsspark使得开发和创建针对大数据的应用程序变得非常简单。 通过spark-submit一个命令行构建工具,Spark还使您可以轻松地将交互式探索转换为生产应用程序spark-submit does...翻译 2019-04-05 21:20:56 · 297 阅读 · 0 评论