- 博客(26)
- 收藏
- 关注
原创 spark structured streaming 教程03(窗口函数)
上一篇structured streaming的博客,我们用structured streaming 解析了推送到kafka的用户访问日志,这篇博客我们利用窗口函数,根据用户日志统计每分钟的pv,顺便写清楚一下窗口函数的原理1数据源上篇博客也写过了,推送到kafka的每条用户访问日志数据源是这样的{ "uid": "ef16382c8acce8ec", "timestamp": 1594983278059, "agent": "Mozilla/5.0 (Linux; Android 10; .
2020-08-04 23:59:38
1583
原创 docker教程04 (镜像的制作和分享)
我们要制作一个docke镜像并进行分享,这个镜像的功能很简单,用python打印hello world就行1制作镜像在上一篇博客已经写了如何创建一个容器,并且已经创建好了,我们用命令查看一下创建好的那个centos容器[root@dk ~]# docker ps -aCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS .
2020-07-28 22:08:34
258
原创 docker教程03 (基本概念)
docker的logo是一条鱼驮着很多集装箱,那条鱼可以理解成宿主操作系统,集装箱可以理解成docker的container(容器,后面会说这个概念),而制作集装箱的模板则可以理解成image(镜像,后面也会说这个概念)1docker image (docker 镜像)概念集装箱的模板集成了集装箱的尺寸、颜色、形状等等所有数据,从而根据这些数据去制造一个个具体的集装箱,docker的image也是一样的道理,定义了container的系统的各种数据,从而根据这些数据去创建具体的containe.
2020-07-24 21:11:25
212
原创 docker教程02(docker的安装)
https://hub.docker.com/editions/community/docker-ce-desktop-windows/
2020-07-23 19:49:21
383
原创 docker教程01 (docker的作用)
docker这个单词翻译过来是码头工人的意思,但是看一个框架就像看一个人一样,不要看他叫什么,而应该看他做了什么他做了什么呢,他的logo暴露了一切,他的logo长这样:从logo我们可以看到,一条鱼(毕竟有尾巴)在搬运集装箱,对了,精髓就在集装箱,集装箱是20世纪最伟大的发明(不接受反驳就像好多php对世界上最好的语言不接受反驳一样),要明白docker改变了 什么,就要看集装箱改变了什么假设货物要从a码头运到b码头没有集装箱前:码头工人将货物进行上船和下船,由于货物是零零散散的,所以要一件
2020-07-21 21:39:21
132
原创 spark structured streaming 教程02(对接kafka的json数据)
首先是准备kafka数据源{"uid":"ef16382c8acce8ec","code":"019","userId":"","lat":"0.0","lng":"0.0","timestamp":1594983278059,"param":"null","ip":"192.168.0.247","agent":"Mozilla/5.0 (Linux; Android 10; Redmi K30 5G Build/QKQ1.191222.002; wv) AppleWebKit/537.36 (KHTM
2020-07-20 20:17:39
1353
原创 spark structured streaming 教程01(上手实例)
废话不多说,先跟我跑第一个structured streaming程序, 按照惯例这个程序功能还是wordcount,统计你输入的内容中每个单词出现的次数1配置好流数据的数据源我这边是用一台centos服务器,通过nc命令启动socket服务端来产生流数据的数据源的,具体操作如下:1.安装nc yum install nc.x86_642.在9999端口启动socket服务端 nc -lk 99993.输入数据[root@dg000 ~]# nc -lk 9999word hell.
2020-07-17 20:24:15
659
原创 spark graphx 教程 04 (join 算子)
spark graphx 04 (join 算子)为了演示graph的join算子,首先我们定义一个graphval users: RDD[(VertexId, (String, String))] = sc.parallelize(Array( (1L, ("a", "student")), (2L, ("b", "salesman")), (3L, ("c", "pro...
2019-05-27 19:59:56
745
1
原创 spark graphx 教程 03 (结构化算子)
spark graphx 03 (结构化算子)spark有如下4种结构化算子:reversesubgraphmaskgroupEdges为了演示以上4种结构化算子,我们首先初始化一个graph,代码如下val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((1L, ("a", "student"...
2019-05-27 19:48:33
510
原创 spark graphx 教程 02(基本代码)
现在我们从代码着手来快速体验一下spark graphx,首先graph类在spark中的路径是org.apache.spark.graphx,我们进去看看源代码graph基本属性我们在spark的graph类,看到了很多方法,但是属性只看到了如下3个基本属性:/** * An RDD containing the vertices and their associated att...
2019-05-14 20:15:58
769
原创 spark graphx 教程01(graphx基本概念)
spark graphx是什么GraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a new Graph abstraction: a directed multigra...
2019-05-13 20:04:23
661
原创 kafka教程3 (kafka基本概念)
总体概念关系图topictopic是生产者和消费者生产和消费的时候都必须制定的一个标识,一般用来标识某个业务一个topic包含多个partition,分布在不同的broker上,这里broker可以简单理解成一个broker技术kafka的一个逻辑节点创建topic的时候,可以指定topic的 partition 数量,以及副本数量,如下 /opt/cloudera/par...
2018-06-26 18:40:37
646
1
原创 log4j根据业务分出多个日志文件
很多时候,我们不同的业务日志要打印到不同的日志文件,比如我们一种日志是 数据库同步到数据仓库日志(db2dw) ,一种日志是 数据清洗日志(washdata) ,要分成2个不同日志文件进行记录看,具体的做法如下:1 在类里面确定好不同业务对应的日志名称,代码如下,这里就是刚刚说的不同的两种业务Logger logger = Logger.getLogger("**db2dw**...
2018-06-19 18:35:20
4387
原创 spark 教程4 (dataset 基础操作)
开发环境为idea,spark版本2.2,scala版本2.11,spark运行模式为本地运行1 配置好maven依赖,依赖如下,注意spark的依赖要选择对应scal版本的依赖 <dependencies> <dependency> <groupId&a
2018-06-08 12:35:36
2997
原创 spark教程3 (cdh5.12 添加 spark2.2 服务)
1.下载安装包 ssh到任一台集群中的节点cd /opt/cloudera/csdwget http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.2.0.cloudera2.jarcd /opt/cloudera/parcel-repowget http://archive.cloudera.com/spark2/pa...
2018-06-06 17:56:43
1982
原创 kafka教程2 (scala 调用 kafka)
1创建项目,pom.xml的依赖如下 <dependencies> <dependency> <groupId>org.scala-lang</group
2018-05-31 19:17:24
4100
原创 kafka教程1(cdh 5.12 安装 kafka)
在线下载激活进入安装包管理,找到kafka,点击下载,下载好后点击分配,然后点击激活 激活后如下 离线下载激活cd /opt/cloudera/csdwget http://archive.cloudera.com/csds/kafka/KAFKA-1.2.0.jarcd /opt/cloudera/parcel-repowget http://archive.clou...
2018-05-30 19:42:57
1548
1
原创 spark教程2 (代码本地和集群运行)
本地运行1.新建项目,maven引入如下依赖<dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifac
2018-05-29 20:30:56
705
原创 spark教程1 (cdh5.12 安装自带spark)
1.添加spark服务,分配好history 和gateway 角色 添加好并启动好spark后如下 2.配置yarn服务,给节点添加yarn的gateway角色,然后重启yarn 3.修改一下yarn的yarn.scheduler.maximum-allocation-mb参数和yarn.nodemanager.resource.memory-mb参数,默认是1g比较小,可以先设...
2018-05-26 18:15:10
2721
原创 hbase教程2(cdh hue访问)
1.找一个节点分配HBase Thrift Server角色 该角色在节点启动后,可用jps在节点看到如下进程 2.在如下图的hue配置中,勾选hbase 3 在如下图的hue配置中,勾选hbase thrift server 4 重启hue,重启后进入hue的web界面,可以看见多出了hbase 5可以在hue界面方便的增删改查 ...
2018-05-25 19:12:39
2499
原创 hbase教程1 (基本概念)
1 数据层面ceilrdbms中,表由行和列组成,由行、列共同确定一个基本的存储单元hbase中,表由row key和colunm family组成,由row key和column共同确定的基本存储单元,就是ceil不同的是,ceil中不仅保存了数据,还保存了数据的版本versionrow key用来检索数据,具体检索方式后面会说最大为64kb的byte[]hbase...
2018-05-25 18:32:06
267
原创 hive教程3 (udf)
1.pom.xml添加以下依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> &l
2018-05-21 18:39:56
399
原创 hive教程2 (maven打包hive jdbc驱动到squirrel)
之前看到网上大多数博客,要导入hive jdbc驱动,比如squirrel和kettle里面,都要手动导入好多包 本文通过maven将hive jdbc驱动的所有包打成一个包,这样给squirrel和kettle配置hive jdbc驱动就方便多了,不用一个个的找1.本方法是基于之前写的一篇博客修改的,请先花1分钟了解下 https://blog.youkuaiyun.com/qq_408...
2018-05-16 20:06:06
1875
1
原创 hive教程1(groovy jdbc连接hive)
在idea上创建好maven项目,pom.xml这样配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/
2018-05-16 19:30:50
682
原创 kettle教程2(不同数据库表结构复制)
在上篇博客中 https://blog.youkuaiyun.com/qq_40887813/article/details/80284349 已经在转换中创建了db41(oracle)这个数据库连接 本篇博客要降db41的reader表的表结构复制到mysql中和上篇博客一样,创建一个mysql数据连接mysql40,注意设置编码成utf 工具-向导-复制多表向导 选...
2018-05-16 18:51:29
9137
原创 kettle教程1(转换)
不整虚的东西,跟着教程的步骤一步一步实践,从实践中学习kettle下载和运行(windows)http://jaist.dl.sourceforge.net/project/pentaho/Data%20Integration/ 本教程以下载pdi-ce-7.0.0.0-25.zip为例解压后如下 双击spoon.bat进入kettle,成功进入后如下图 ...
2018-05-15 20:23:38
3317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人