
大数据
文章平均质量分 95
繁城落叶
这个作者很懒,什么都没留下…
展开
-
使用Docker搭建hadoop集群
刚开始搭建hadoop集群的时候,使用的是VMware创建的虚拟机。结果卡到心态爆炸。。。 今天尝试使用Docker搭建hadoop集群,发现是如此的好用快捷,也比使用VMware简单。 在这里记录一下防止以后忘记,为以后的学习做准备。1.获取镜像。如果是本地使用VMware搭建的话,需要准备java环境,hadoop安装包,还要配置环境变量。虽然不难,但是经常做这些工作也难免烦躁。 使用Do原创 2017-05-23 00:40:13 · 4307 阅读 · 12 评论 -
Curator的三种缓存。
Curator分类NodeCachePathChildrenCacheTreeCache示例在使用原生的ZooKeeper的时候,是可以使用Watcher对节点进行监听的,但是唯一不方便的是一个Watcher只能生效一次,也就是说每次进行监听回调之后我们需要自己重新的设置监听才能达到永久监听的效果。Curator在这方面做了优化,Curator引入了Cache的概念用来实现对ZooKeepe原创 2017-12-07 16:49:57 · 8836 阅读 · 0 评论 -
【ZooKeeper】Java客户端API使用介绍。
创建会话创建节点读取节点修改节点删除节点检测节点实例创建会话。本人使用的是3.4.11版本,也是目前的稳定版本,先给出官方的API地址:http://zookeeper.apache.org/doc/r3.4.11/api/index.html客户端可以通过创建一个ZooKeeper(org.apache.zookeeper.ZooKeeper)实例来连接ZooKeeper服务器,API原创 2017-12-03 21:42:54 · 652 阅读 · 0 评论 -
使用ZooKeeper实现数据发布/订阅。
发布订阅模式简述使用ZooKeeper实现发布/订阅模式简述。这是属于一种设计模式,在此不做过多的介绍,只是给出大概的概念。 发布订阅模式定义了一种一对多的依赖关系,让多个订阅者对象同时监听某一个主题对象。这个主题对象在自身状态变化时,会通知所有订阅者对象,使它们能够自动更新自己的状态。订阅/发布模式也分为两种,分别是推模式和拉模式。 在推模式中,服务器主动将数据更新发送给所有订阅的客户原创 2017-12-10 21:38:03 · 5433 阅读 · 0 评论 -
利用Python分析学校四六级过关情况。
这段时间看了数据分析方面的内容,对Python中的numpy和pandas有了最基础的了解。我知道如果我不用这些技能做些什么的话,很快我就会忘记。想起之前群里发过一个学校的四六级成绩表,正好可以用来熟悉一下pandas中的一些用法。1.数据介绍。成绩表中包含的字段十分详细,里面有年级、性别、姓名、分数等等的一系列内容,我只想简单的分析一下我们学校的四六级过关率而已,所以去除了一些不必要的字段。留下的原创 2017-11-17 14:08:26 · 1634 阅读 · 4 评论 -
Spark 算子Java操作示例。
Spark中有许许多多的算子来支持各种操作,但其中主要分为两种;一种就是Transformations算子,一种是Action算子。官方文档中已经指出了常用的算子。好记性不如烂笔头,在这里记录一下各个算子的作用以及使用方法。Transformations算子:顾名思义,这种算子的作用就是将一个RDD转换成另一种RDD,有的算子转换过程中还会涉及到parition的变化和Shuffle操作,这里只介绍原创 2017-07-27 18:41:48 · 3155 阅读 · 0 评论 -
Spark2.1 共享变量(Broadcast Variables&Accumulators)分析。
在spark中,当我们将一个function传递给算子去执行的时候,是会在集群的从节点执行的,例如map算子: List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5); JavaRDD<Integer> numberRDD = sc.parallelize(numbers);// 得到一个RDD JavaRD原创 2017-07-30 14:59:42 · 2616 阅读 · 0 评论 -
Hbase版本对Hadoop版本支持
从官方文档看的最新情况。 Hadoop version support matrix “S” = supported “X” = not supported “NT” = Not tested原创 2017-07-16 17:51:17 · 1313 阅读 · 0 评论 -
Hadoop FIleSystem API JAVA操作。
1.FileSystem的获取。我们可以在Hadoop中使用FileSystem API来打开一个文件的输入流,然后我们可以对文件进行各种的操作实现。FileSystem是一个通用的文件系统API,FileSystem的获取方法有以下几种(以下所有相关代码接口实现均为手打,不保证完全正确,如有出错敬请谅解。):public statis FileSystem get(Configuration co原创 2017-07-13 00:04:14 · 7192 阅读 · 2 评论 -
Hbase1.3.1 完全分布式搭建。
hbase的搭建是比较简单的,无论是单机模式还是分布式都相对容易。本人选择的是1.3.1的版本,按照官方的文档很快就搭建起来了,但是启动的时候出现了错误。无论是baidu还是google都没有找到答案,起初还以为是版本差异,然后使用了1.2.6版本,结果还是原来的错误,看了错误日志之后也是云里雾里的,后来无意间发现了问题的根源,然后 继续使用1.3.1了,在这里记录一下。在搭建Hbase之前,我已经原创 2017-07-16 17:45:53 · 8048 阅读 · 2 评论 -
kafka1.0完全分布式搭建。
kafka是一个分布式的消息系统,可以用来作为消息分发使用,也可以配合storm和flume使用,将其作为这两二者之间的一个缓冲区域。在这里记录一下搭建的过程,前提时机器上装有java环境和zookeeper环境,这两个配置起来都比较简单,不再累述,在这里主要介绍如何配置安装kafka。实验环境。搭建环境:ubuntu16.04. 节点:node1、node2、node3。...原创 2018-02-19 19:26:49 · 1944 阅读 · 0 评论