
大数据
文章平均质量分 62
宝华的小岛
生命不息,奔跑不止。
展开
-
CentOS7搭建Flume服务器
Flume的官网是http://flume.apache.org,官网提供了丰富实用的技术资料。l一、下载软件原创 2021-05-30 21:00:01 · 370 阅读 · 0 评论 -
CentOS7搭建Hive服务器
Hive服务器需要Hadoop,我使用的是Hadoop3.3.0,这个提前已经搭建好了。MySql5.7.34也已经准备好。一、下载软件原创 2021-05-29 20:19:52 · 338 阅读 · 0 评论 -
CentOS7搭建HBase单节点集群
鉴于Docker搭建HBase遇到那种令人恶心的设计,我决定采用CentOS7直接搭建。孰料,过程更麻烦,坑更多。简直就是一个踩坑的体验。不过我横下心来杠到底,非要把这个问题解决不可。用了一个工作日,尝试各种版本,梳理各种思路,查阅了很多资料,终于搞定了。HBase工作需要zookeeper,虽然HBase本身集成了zookeeper,但是使用并不是很自由,建议还是使用独立的zookeeper。所以我们首先要在系统中安装zookeeper。HBase的底层存储使用的还是Hadoop的HDFS,因此还原创 2021-05-27 13:45:18 · 662 阅读 · 1 评论 -
Docker架设HBase集群
要学习HBase,需要架设一个集群,一个单节点的集群,Docker当然是首选。一、拉取镜像docker pull harisekhon/hbase二、运行容器docker run --name hbase -itd \ -h hbase-server \ -p 2181:2181 \ -p 8080:8080 \ -p 8085:8085 \ -p 9090:9090 \ -p 9095:9095 \ -p 16000:16000原创 2021-05-27 13:10:38 · 668 阅读 · 2 评论 -
Java整合Flink初学系列
本次研究学习浅尝则止,由浅入深。记录下来,以作参考。Java整合Flink批处理本地数据Java整合Flink流式处理本地数据Java整合Flink流式处理从Socket获取的数据Java整合Flink流式处理从Kafka获取的数据Java整合Flink将结果写入ElasticSearchJava整合Flink使用结巴中文分词器附:CentOS7架设Flink1.13.0服务器...原创 2021-05-23 12:10:01 · 631 阅读 · 0 评论 -
Java整合Flink使用结巴中文分词器
这是本次学习的最后一篇了,我在完成基本业务处理模型的基础之上https://blog.youkuaiyun.com/xxkalychen/article/details/117190236?spm=1001.2014.3001.5501,增加一个中文分词的功能。一、添加pom依赖。<dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId原创 2021-05-23 12:05:24 · 671 阅读 · 2 评论 -
Java整合Flink将结果写入ElasticSearch
上次修改https://blog.youkuaiyun.com/xxkalychen/article/details/117152948?spm=1001.2014.3001.5501把数据源确定为消息中间件kafka,从数据源来讲已经比较符合标准模型了。数据处理的最终结果也不能只是控制台打印,终究还是要持久化的。我们可以写入HBase,可以写入HDFS,我这里还是选择写入ElasticSearch。首先我们要启动ElasticSearch服务器,zookeeper和kafka。一、添加ElasticSearc原创 2021-05-23 11:31:08 · 928 阅读 · 1 评论 -
Java整合Spark第一个程序WordCount
创建一个maven工程。一、添加pom依赖。<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.1.1</version></dependency>我搭建的服务器安装的scala版本是2.12.10,spark版本是3.1.1原创 2021-05-23 03:21:21 · 679 阅读 · 0 评论 -
CentOS7搭建Spark3.1.1单节点集群
打算学习研究Spark,搭建一个单节点的Spark集群来做线上测试和研究。首先要安装好安装Scala环境https://blog.youkuaiyun.com/xxkalychen/article/details/117175314。一. 下载Spark软件cd /var/appwget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz二. 解压tar -zx.原创 2021-05-23 01:43:56 · 888 阅读 · 0 评论 -
CentOS7安装Scala2.12.10
打算研究Spark,需要服务器安装Scala环境。一、下载软件cd /var/appwget https://downloads.lightbend.com/scala/2.12.10/scala-2.12.10.tgz二、解压tar -zxvf scala-2.12.10.tgz三、添加环境变量vi /etc/profile添加内容# Scalaexport SCALA_HOME=/var/app/scala-2.12.10export PATH=$PATH:原创 2021-05-23 01:21:23 · 440 阅读 · 0 评论 -
Java整合Flink流式处理从Kafka获取的数据
上次的例子https://blog.youkuaiyun.com/xxkalychen/article/details/117149540?spm=1001.2014.3001.5502将Flink的数据源设置为Socket,只是为了测试提供流式数据。生产中一般不会这么用,标准模型是从消息队列获取流式数据。Flink提供了跟kafka连接的封装,我们只需要一点小小的改动就可以实现从Kafka获取数据。不过修改之前,需要搭建一个Kafka服务器。具体搭建过程这里不做详述。现在我们来修改程序。一、添加pom依赖。原创 2021-05-22 11:31:04 · 3058 阅读 · 0 评论 -
Java整合Flink流式处理从Socket获取的数据
尝试把Flink的小例子部署到集群去执行,发现找不到本地的txt文件。可是看jar包里面明明被打包进去了,可能获取路径的方法有点问题。懒得去处理,因为流式处理极少去处理本地数据的。我们要把数据来源更换成一个可以源源不断地输入的模式。比如Socket。我们就在前次小例子的基础上来修改https://blog.youkuaiyun.com/xxkalychen/article/details/117148830。修改部分很简单。我们另外创建一个测试类,其他都不用修改。package com.chris.flink原创 2021-05-22 09:39:02 · 2400 阅读 · 0 评论 -
Java整合Flink流式处理本地数据
流式处理用于处理源源不断的数据,服务处理等待状态,有一批新数据进来就处理一批。跟批处理一次性完成一批数据不同。我们在上一次的小例子上做修改https://blog.youkuaiyun.com/xxkalychen/article/details/117147480。其实也没有什么大的修改,我们还是另外创建一个测试类就好,pom什么的都不用修改。package com.chris.flink;import org.apache.flink.api.common.functions.FlatMapFunct原创 2021-05-22 08:59:43 · 979 阅读 · 0 评论 -
Java整合Flink批处理本地数据
Flink是一个流式数据处理框架。我们与Java进行整合的第一个例程基于简单的原则,从本地一次性获取需要的数据,一次性处理完成。这个例程在本地运行,不需要服务器的支撑。创建一个maven工程。一、pom依赖。<properties> <flink.version>1.13.0</flink.version></properties><dependencies> <dependency>原创 2021-05-22 08:01:20 · 926 阅读 · 1 评论 -
CentOS7架设Flink1.13.0服务器
一、下载软件cd /var/appwget https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.13.0/flink-1.13.0-bin-scala_2.12.tgz二、解压软件tar -zxvf flink-1.13.0-bin-scala_2.12.tgz三、添加环境变量vi /etc/profile添加内容# Flinkexport FLINK_HOME=/var/app/flink-1.13.0原创 2021-05-22 07:14:31 · 442 阅读 · 0 评论 -
CentOS7架设服务器系列
一、关系型数据库二、NoSQL数据库三、消息中间件四、WEB服务器4-1.CentOS7安装运行tomcat五、流式数据处理服务器六、大数据6-1.CentOS7架设Storm单实例服务原创 2021-05-22 06:43:42 · 239 阅读 · 0 评论 -
Java整合Storm初学渐进系列
最近学习研究Storm,写了几篇笔记,在这里整理一个目录,方便查阅。一、CentOS7架设Storm单实例服务二、Java整合Storm的简单例子三、Java整合Storm写入ElasticSearch四、Java整合Storm任务分流五、Java整合Storm上传到远程服务器执行六、Java整合Storm使用代码提交远程集群执行七、Java整合Storm读取Kafka数据八、Java整合Storm实现WordCount单词统计九、Java整合Storm使用中文分词十原创 2021-05-22 00:04:54 · 126 阅读 · 0 评论 -
Java整合Storm使用中文分词
以前写的例子,都是基于用空格分割的单词,英文文本本身就是用空格分割,识别相对容易,但是中文之间是没有空格的,严格地说,中文没有可识别的分隔符,能够识别中文词汇来自于中文语法规则,计算机哪里会?所以必须基于一些词库来识别。所以很多大数据处理框架都提供了使用中文分词器的功能。这里我们是用一款叫做结巴分词器的工具,来对输入源的中文进行分词。在上一次修改过的基础之上https://blog.youkuaiyun.com/xxkalychen/article/details/117136261?spm=1001.2014.3原创 2021-05-21 23:55:43 · 373 阅读 · 1 评论 -
Java整合Storm实现WordCount单词统计
如同每一种程序语言的入门都要设计一个输出"Hello,World!"的小例子一样,几乎每一种流式数据处理框架都有一个WordCount的入门例程。MapReduce是一个标准,包括Spark和Flink都提供map和reduce算子,可以很方便地实现单词统计。Storm好像没有发现这个,不过实现起来却也很容易。基于上次修改的程序https://blog.youkuaiyun.com/xxkalychen/article/details/117058030?spm=1001.2014.3001.5501,我们把从Ka原创 2021-05-21 23:20:38 · 447 阅读 · 0 评论 -
Java整合Storm读取Kafka数据
写到这里,kafka -> storm -> es 应该是流式数据处理最标准的模型了,从消息队列获取流式数据源,经storm多分支流水线逐次清洗、处理、计算,把需要的数据持久化到仓库。根据前几次的不断深入和修改,现在我们就把数据源改成kafka。我们需要做三点改动就好了。一、添加kafka的依赖。<dependency> <groupId>org.apache.kafka</groupId> <artifactId>k原创 2021-05-20 06:48:37 · 947 阅读 · 0 评论 -
Java整合Storm使用代码提交远程集群执行
上次我们通过微小修改https://blog.youkuaiyun.com/xxkalychen/article/details/117045413,实现了本地jar包上传到远程Storm集群执行。Strom还提供直接在本地代码执行提交到远程集群执行的方法。我们还是在上次的小例子上做一点点修改。只需要修改主类MyTopology即可。package com.chris.storm.topology;import com.chris.storm.bolt.CountBolt;import com.chri原创 2021-05-19 22:15:18 · 756 阅读 · 3 评论 -
Java整合Storm上传到远程服务器执行
参考之前的小例子https://blog.youkuaiyun.com/xxkalychen/article/details/117021471?spm=1001.2014.3001.5501,我们稍作修改,实现提交到远程集群执行。一、修改pom.xml1. storm-sore依赖需要添加作用域provided<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm原创 2021-05-19 21:24:15 · 550 阅读 · 2 评论 -
Java整合Storm任务分流
Storm以流水线的模式处理流式数据,每一个环节完成一条逻辑需求中的一个阶段性任务。但是我们的需求不止一个,并不一定处于一条逻辑线,甚至经过几次处理环节之后就没有什么共同点了,这就需要我们将任务处理环节划分开多个分支,每一种需求又会在各自的分支以流水线的模式处理下去。基于上次我们修改过的小例子https://blog.youkuaiyun.com/xxkalychen/article/details/117019970?spm=1001.2014.3001.5501,我们在处理完文字行之后,一方面在后台打印,一方面原创 2021-05-19 11:52:31 · 445 阅读 · 1 评论 -
CentOS7架设Storm单实例服务
最近学习研究Storm,需要一个Storm服务器环境。搜一下发现网络上大都是架设集群的,本人主要从事java后端,不需要在服务器运维方面搞得过于深入,加之用虚拟机架设一个多节点的集群也颇为消耗资源。试想我正在调试Java程序,还要开着三个虚拟机,是不是很麻烦。所以我们只需要一个单实例的服务器就好了。最开始还是追求Docker化的架设,但是考虑到可能需要把Storm的jar包上传到服务器,使用Docker就有点啰嗦,所以还是直接在CentOS7里面进行架设。架设过程中当然还是遇到了一些问题,最终是架设成功原创 2021-05-19 09:35:46 · 335 阅读 · 0 评论 -
Java整合Storm的简单例子
刚刚架设好一台Storm单实例服务器https://blog.youkuaiyun.com/xxkalychen/article/details/117014994,需要写个Java程序来测试一下。使用Idea创建一个Java项目。一、pom依赖<dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <v原创 2021-05-19 10:32:48 · 875 阅读 · 0 评论 -
Java整合Storm写入ElasticSearch
上次写了一个Java整合Storm的一个最简单的例子https://blog.youkuaiyun.com/xxkalychen/article/details/117018310,一个数据源,一个处理中间环节,一个最终环节,一个任务拓扑。我们能看到的效果是控制台打印。根据需要,我们要把数据写入ElasticSearch。我们在原有的项目中做一点小的调整,来实现这个需求。当然,首先我们需要一个ElasticSearch的服务器。我已经开启了自己架设好的ES服务器,版本号7.12.0一、pom中添加Ela原创 2021-05-19 11:14:17 · 413 阅读 · 1 评论