
大数据
大佛拈花
你现在的气质里,藏着你走过的路,读过的书和爱过的人
展开
-
Flink学习系列之七 Flink序列化以及Flink Broadcast & Accumulators & Counters &Distributed Cache
1 Flink 的序列化Flink自带了针对诸如int,long,String等标准类型的序列化器 针对Flink无法实现序列化的数据类型,我们可以交给Avro和Kryo 使用方法:ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 使用avro序列化:env.getConfig().e...原创 2019-11-02 22:15:42 · 1798 阅读 · 0 评论 -
Flink学习系列之六 DataSetAPI
1 DataSet API之Data Sources基于文件 readTextFile(path) 基于集合 fromCollection(Collection) 上述的API之前都已经使用过,这里不在赘述。2 Transformations部分详解Map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作 FlatMap:输入一个元素,可以返回零个,一个或者多个...原创 2019-11-01 22:20:41 · 308 阅读 · 0 评论 -
Flink学习系列之五 DataStream API之Sink
sink是将数据源最终写入文件或者数据库或者其他中间件当中。1 DataStream API之Data SinkwriteAsText():将元素以字符串形式逐行写入,这些字符串通过调用每个元素的toString()方法来获取 print() / printToErr():打印每个元素的toString()方法的值到标准输出或者标准错误输出流中 自定义输出addSink【kafka、r...原创 2019-11-01 09:54:49 · 684 阅读 · 0 评论 -
Flink学习系列之四 DataStream API之Transformations&Partition
1 Transformations API介绍map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作 flatmap:输入一个元素,可以返回零个,一个或者多个元素 filter:过滤函数,对传入的数据进行判断,符合条件的数据会被留下 keyBy:根据指定的key进行分组,相同key的数据会进入同一个分区【典型用法见备注】 两种典型用法 dataStream.keyBy("s...原创 2019-10-31 16:51:30 · 14561 阅读 · 0 评论 -
Flink学习系列之三 DataStreamAPI之source
Flink API的抽象级别,如下图:1 DataStream API之Data Sourcessource是程序的数据源输入,你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好的source方法,你也可以自定义source 通过实现sourceFuncti...原创 2019-10-30 22:05:56 · 1580 阅读 · 0 评论 -
Flink学习系列之0 安装
flink的三种运行模式单机模式Flink 可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是jdk 7或更高版本,本地运行会启动Single JVM,主要用于测试调试代码。Standalone 分布式Standalone模式是flink原生提供的一种分布式独立部署方案,也是master/slave架构.on yarn和...原创 2019-08-27 20:57:04 · 158 阅读 · 0 评论 -
你真的了解kafka架构原理吗?
系统缓存+顺序写+批处理+mmap(生产者角度-高并发写入)零拷贝技术(消费者角度-高并发读取)Kafka在生产者写入消息的时候会将数据最终写入磁盘,既然它是基于磁盘读写,那么频繁的IO操作肯定会影响读写的性能,为何会有高性能呢?1.系统缓存+顺序写+批处理+mmap(生产者角度-高并发写入)在这里,Kafka生产者将消息写入各个broker中的时候,并不会直接写入磁盘,会将数据先写入缓存OS Cache(基于操作系统,所以命名OS),然后操作系统会决定什么时候将消息成批地将数据写入..转载 2020-05-12 14:12:09 · 320 阅读 · 0 评论 -
解密Kafka吞吐量高的原因
解密Kafka吞吐量高的原因众所周知kafka的吞吐量比一般的消息队列要高,号称the fastest,那他是如何做到的,让我们从以下几个方面分析一下原因。生产者(写入数据)生产者(producer)是负责向Kafka提交数据的,我们先分析这一部分。Kafka会把收到的消息都写入到硬盘中,它绝对不会丢失数据。为了优化写入速度Kafak采用了两个技术,顺序写入和MMFile。顺序写...转载 2020-03-31 20:58:30 · 626 阅读 · 0 评论 -
Flink学习系列之二 Flink批处理
需求:统计文件夹下的单词出现的次数此时我们可以使用Flink的批处理,我的data目录下有a.txt文件,输入任意的单词,然后我们开始统计。代码如下:public class BatchHandler { public static void main(String[] args) throws Exception{ //1 获取流式环境 Exec...原创 2019-10-28 20:44:36 · 618 阅读 · 0 评论 -
Flink学习系列之一 Flink基本原理及安装 以及WordCount程序
1 Flink简介Apache Flink是一个开源的分布式,高性能,高可用,准确的额流处理框架。 主要由Java实现 支持实时流(Stream)处理和批处理(Batch),批数据只是流数据的一个极限特例。 Flink原生的支持了迭代计算,内存管理和程序优化。上图是Flink的特点。关于批处理和流处理的理解可以参照我之前的博文:https://blog.youkuaiyun.com/GoS...原创 2019-10-24 21:26:56 · 476 阅读 · 0 评论 -
流处理(Stream)和批处理(Batch)
1 流处理和批处理的概念在程序计算当中,同一节点或者不同节点之间的数据的传递是实时传递还是延迟传递,这就引出了两个概念。其实在非大数据领域这两个概念所起的作用也是很有限,但是在大数据领域,处理上亿级别的时候,效果就很明显了。尤其是实时计算领域。Hadoop的缺陷就是高延迟,因此他不可能用于低延迟领域或者场景。以为的理解,流处理就是不同节点之间数据的传输是实时传递。比如节点1计算完成之后,将...原创 2019-08-26 21:32:17 · 4890 阅读 · 0 评论 -
Hadoop HDFS概念以及查看fsimage和edit日志文件
Hadoop的HDFS文件系统是采用主从结构的。master就是NameNode.NameNode不保存实际的操作数据,而是保存数据到数据块的映射,以及数据的操作记录。可以理解为NameNode就是fsimage+editlog。那么什么是fsimage呢?fs就是目录的意思,image就是图片,可以理解为目录树。就是文件映射到DataNode的记录树。editlog就是文件读写的记录。S...原创 2019-08-24 23:36:23 · 1229 阅读 · 0 评论 -
HDFS 3.x JAVA API操作
package com.caozg.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.LocatedFileStatus;import org.apache.hadoop.fs.Path;imp...原创 2019-07-10 11:03:56 · 541 阅读 · 0 评论 -
Hadoop WordCount执行结果查看
hadoop3.x访问:http://localhost:9870选择浏览打开output文件夹:下载该文件即可原创 2019-05-11 14:58:14 · 2120 阅读 · 3 评论 -
Hadoop无法访问50070
本人之前写过一篇文章https://blog.youkuaiyun.com/GoSaint/article/details/88057652介绍了无法启动50070端口的原因。这是基于hadoop2.x版本的。在本人搭建了hadoop3.x之后,jps都正常。发现无法访问50070.其实在hadoop3.x之后,UI页面的地址发生了变化:http://localhost:9870/...原创 2019-05-11 13:20:51 · 2750 阅读 · 0 评论 -
ElasticSearch实战一(es安装以及插件安装)
es教程1 es的安装和启动; 运行bin目录下的elasticsearch.bat文件;(注意jre的环境必须是Java8,否则闪退)之后浏览器访问:localhost:9200/.如果出现如下的信息,说明es服务启动!2 kibana工具的使用; 下载kibana包;文件夹如下图所示:进入bin目录,启动kibana.bat文件;这个文件启动需要很...原创 2018-10-22 14:04:25 · 707 阅读 · 0 评论 -
ElasticSearch实战三(分词和映射)
ElasticSearch的文档映射机制(mapping)用于进行字段的类型确认,将每一个字段匹配为一种确定的数据类型。1 ES字段类型 ① 基本字段类型 字符串:text、keyword text默认为全文文本,keyword默认为非全文文本 数字:long、integer、short、double、float 日期:dat...原创 2018-11-03 15:57:01 · 2393 阅读 · 0 评论 -
KafKa(windows10)下的搭建
在本人写这篇文章之前,我的zookeeper环境和java环境都是搭建好的,因此如果有读者想要搭建的话,那么必须要安装zookeeper。 下载:https://www.apache.org/dyn/closer.cgi?path=/kafka/2.0.0/kafka_2.12-2.0.0.tgz (1) 我使用的是kafka2.12版本。下图是我解压后的kaf...原创 2018-11-03 21:44:22 · 466 阅读 · 0 评论 -
zookeeper java api(1)
1 Zookeeper安装以及启动 这里我已经进行了安装,并且启动了Zookeeper。端口是21822 Zookeeper configtickTime=2000initLimit=10syncLimit=5dataDir=D://zookiper/zookeeper/dataclientPort=2182 参数介绍tickTime: 这个时间...原创 2018-11-06 12:57:50 · 379 阅读 · 0 评论 -
zookeeper java api(2)
这里介绍其他的API对zookeeper的操作。同步方式获取子节点数据 public static void getChildrenSync() throws KeeperException, InterruptedException { List<String> childrenList = zkClient().getChildren("/", tr...原创 2018-11-06 22:04:16 · 151 阅读 · 1 评论 -
zookeeper Apache Curator
1 简介 Curator是Netflix公司开源的一套Zookeeper客户端框架。了解过Zookeeper原生API都会清楚其复杂度。Curator帮助我们在其基础上进行封装、实现一些开发细节,包括接连重连、反复注册Watcher和NodeExistsException等。目前已经作为Apache的顶级项目出现,是最流行的Zookeeper客户端之一。从编码风格上来讲,它提供了基于Fl...原创 2018-11-10 16:37:17 · 260 阅读 · 0 评论 -
Hadoop伪分布式搭建
微信公众号:大佛拈花关注可了解更多的教程及排版技巧。问题或建议,请公众号留言;1 硬件信息1vCPUs | 1GB | s3.small.1CentOS 7.2 64bit2 Java环境1 安装JDK81 下载安装sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel2 配置环境变量vi ~...原创 2019-01-25 22:42:46 · 179 阅读 · 0 评论 -
Hadoop本地开发入门
微信公众号:大佛拈花对于Hadoop的本地开发环境的搭建,我本人是在Linux服务器上搭建的,但是发现遇到了诸多的问题,首先是本地调试和服务器上存在差异,需要上传Jar包等。最为重要的是还是对环境不太熟悉。因此我本人选择搭建了Hadoop的windows环境,这个过程还算比较顺利。但是在码代码的过程中还是遇到了一些的问题。关于Hadoop的windows环境搭建,网上的教程算是比较多的,大家...原创 2019-02-01 23:47:45 · 463 阅读 · 0 评论 -
Hadoop之HDFS操作
其实本篇文章是我Hadoop环境安装的续篇。在Hadoop本地开发入门这篇文章中,我的输入输出文件全部在本地,并没有上传到HDFS上面。今天就是HDFS的操作。1 配置core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration....原创 2019-02-01 23:57:28 · 306 阅读 · 0 评论 -
Hadoop理论之MapReduce
1 环境概要要学一门新的东西,对于不通的人可能会有不通的出发点。就学习方法而言,也是多样的。我前面写的文章主要是搭建环境,并且客观的说我也不知道Hadoop能干什么。但是我认为系统环境的搭建就如同打仗的后勤一样。所谓兵马未动,粮草先行吧。接下来我们来看看Hadoop的具体理论吧。看如下图是Hadoop的组成部分。分别是HDFS以及Map Reduce。HDFS(Hadoop Distribut...原创 2019-02-14 21:09:27 · 299 阅读 · 0 评论 -
解决Hadoop无法启动NameNode以及无法打开50070端口
这段时间自己的操作系统从windows完全换为Deepin Linux.主要是想感受下国产操作系统.经过一段时间的使用,感觉确实不错.可是要想让完全不懂Linux的用户来使用,光是文件管理就可以让绝大多数人奔溃啦。好了言归正传。我使用Deepin Linux搭建了Hadoop3.2.但是在启动的过程中无法打开50070端口.有重新Format之后,发现NameNode无法启动.1、问题产生原因...原创 2019-03-01 14:22:16 · 6185 阅读 · 0 评论 -
解决Hadoop无法启动JobHistoryServer
gosaint@gosaint:/usr/local/hadoop$ sbin/mr-jobhistory-daemon.sh start==== 出现如下问题:WARNING: Use of this script to start the MR JobHistory daemon is deprecated.WARNING: Attempting to execute replace...原创 2019-03-01 16:07:23 · 15940 阅读 · 1 评论 -
ElasticSearch实战二(es基本操作以及IK分词器的安装)
1 基本概念1.1 Node 与 ClusterElastic 本质上是一个分布式数据库,允许多台服务器协同工作,每台服务器可以运行多个 Elastic 实例。单个 Elastic 实例称为一个节点(node)。一组节点构成一个集群(cluster)。1.2 IndexElastic 会索引所有字段,经过处理后写入一个反向索引(Inverted Index)。查找数据的时候,直接查...原创 2018-10-24 21:22:55 · 511 阅读 · 0 评论