- 博客(39)
- 收藏
- 关注
原创 本人的一些总结
1、maven仓库的问题步骤:1、先看看设置里面的仓库,是不是自己的仓库。如果不是的话,先换成自己的仓库。(必须注意的)2、检查一下你本地库里面,是不是有未下载完的文件。类似与这样的文件,删一下,仓库可能没有下载完毕。...
2022-02-04 22:21:42
624
原创 f基础入门8--flinkSQL
@TOC把table转换成为datastream的时候,做了哪些操作?可以吧datastream API和tableAPI集合起来一起用。甚至可以一段代码的处理程序里面,前面做datastream的转换,转换成某个datastream的时候,然后再转换成表,然后调用table API做一些操作。哪种方式更容易实现需求就用哪种方式。需要注意的是,表转换成流的时候,没有更新模式。流输出了,不可能在输出的结果基础上再修改。流之前的数据已经输出到了下游,已经溜过去了。所以upsert模式在流里面没哟办法直
2021-11-25 17:39:10
2005
原创 f基础入门7--flinkSQL表的概念以及输出到外部系统
@TOC引入的依赖planner计划。计划器,这是tableAPI中最主要的部分,提供一个运行时的环境。基于运行时的环境解析流式处理程序,生成一个表的执行计划,2.12是Scala的版本。1.10是flink的版本。<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner_2.12</artifactId> &
2021-11-21 00:48:15
783
原创 f基础入门5--状态后端与容错机制
flink状态后端状态后端状态后端的概念状态后端的配置容错机制一致性检查点(checkpoint)状态后端状态后端的概念状态后端的类型1、MemoryStateBackend内存级的状态后端, 会将键控状态作为内存中的对象进行管理, 将它们存储在 TaskManager 的 JVM 堆上;而将 checkpoint 存储在 JobManager 的内存中。应用: 因为不太稳定,用在测试,调试,开发环境中。2、FsStateBackend将 checkpoint 存到远程的持久化文件系统(
2021-11-15 14:08:11
345
原创 f基础入门4--flink状态管理和ProcessFunction API
flink状态管理Flink状态管理算子状态键控状态状态后端Flink状态管理flink对自己的定位是,分布式框架和大数据处理引擎,对数据流做有状态的计算。状态可以认为是一个本地变量。task执行的时候就是在slot上执行的一个线程,执行过程中用到的所有数据,保存在当前的线程所独享的内存中去。所以就是持有的一个变量而已。只是这么认为,但是并不是一个真正的变量。但是我们是一个分布式系统,flink在运行过程中会自动做状态管理。状态就是某一个任务保存的数据。每一个状态都是和特定的任务和特定的算子
2021-11-12 16:14:04
293
原创 f基础知识点3----window窗口函数与时间语义watermark
window基本知识点窗口窗口的类型CountWindowTimeWindow滚动窗口(Tumbling Windows)滑动窗口(Sliding Windows)会话窗口(Session Windows)Window APITimeWindow滚动窗口(Tumbling Windows)滑动窗口(Sliding Windows)会话窗口(Session Windows)CountWindow滚动窗口(Tumbling Windows)滑动窗口(Sliding Windows)窗口streaming 流
2021-11-08 23:56:42
766
原创 f基础入门1-- 基础架构的了解
pom文件中添加的东西1、里面有两个依赖,一个就是flink-scala,我们要用的是scala语言进行写代码。还有一个就是flink-streaming-scala,也就是流的问题。– !! 上面那两个依赖的记忆方式: 用Scala写flink代码、用Scala的流式写flink代码。2、还有一个打包插件,就是关于Scala代码进行打包,注意里面的版本问题导致的代码运行失败的话,那么就修改版本。 <dependencies> <dependen
2021-09-02 11:36:22
869
原创 读建模书籍遇见的看不懂的问题。
1、下钻维度是什么意思?---- 就是: 分组查询已知广东省的GDP,想要知道广东省下面各个市的GDP,这个过程叫做下钻。通过不同的维度组合来求,比如说顶层维度组合是group by province,下钻一层的维度组合就是group by province, city。 Hive和spark里面groping sets,with cube,roll up三个函数支持上钻下钻分析。就是相当于是分组查询,先是一个部门作为分组条件,进行求和;然后多了一个查询条件,以部门和品牌进行分组,然后进行求和。其
2021-06-20 16:46:34
158
原创 菜鸡的notebook(慢慢总结)
(CASEWHEN score < 60 THEN ‘不及格’WHEN score >= 60 AND score < 80 THEN ‘及格’WHEN score >= 80 THEN ‘优秀’ELSE ‘异常’END) AS REMARK --字段名字为remarkmax(CASEWHEN score < 60 THEN ‘50’WHEN score >= 60 AND score < 80 T.
2021-05-17 23:59:36
966
1
原创 spark的零零散散
1、在idea上写代码,setMaster(“local[*]”),这个是本地模式。在idea上进行运行,相当于提交到集群或者是local本地,然后进行运行,相当于手动点击了run的操作。setAppName里面的名字自己起。local[ ]里面的那个星,表示可以利用到能利用的所有的核数,也就是线程数目。val conf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")2、在用yarn模式的时候,打包代码之前,把s
2021-05-16 22:31:03
260
原创 CDH零零散散
1、刚刚搭建好的CDH ,执行任务报这个错误。取消检测hdfs权限,在cm界面上hdfs配置里。这个记下来,这个报错百度和谷歌不好搜正确的结果,让你搭建一次测试,后面还会让你搭建生产。
2021-05-14 00:43:54
110
原创 MapReduce的零零散散
1、maptask的个数是根据切片数目决定的,也就是并不会人为的设置。reducetask的个数是自己设置的。2、reduce的内存是怎么设置的?一般是先从小往大调整,出现问题就往大调整。3、那么设置reduce个数是几个,那么就是几个吗?看队列的资源,和单个reduce设置的内存的大小。打个比方,也就是说如果队列的资源是100g,单个reduce的内存是10g的话,在不考虑其他组件的话,就可以设置10个reduce的个数。...
2021-05-03 01:23:11
99
原创 flink看见就总结一下
1、checkpoint与状态后端的关系?每传入一条数据,有状态的算子任务都会读取和更新状态。状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就是状态后端。状态后端将检查点(checkpoint)状态写入远程存储,说白了状态后端就是保存checkpoint的。...
2021-04-27 12:55:34
386
2
原创 spark算子
文章目录Key-Value类型reduceByKey()按照K聚合VgroupByKey()按照K重新分组combineByKey()aggregateByKey()按照K处理分区内和分区间逻辑foldByKey()分区内和分区间相同的aggregateByKey()sortByKey()按照K进行排序mapValues()只对V进行操作join()连接cogroup()类似全连接,但是在同一个RDD中对key聚合Key-Value类型reduceByKey()按照K聚合V1)函数签名:def re
2021-04-09 20:26:33
346
原创 spark与flink任务的提交
文章目录spark1.1 Spark运行模式1.2 spark任务提交的时候参数(yarn-client/yarn-cluster)1.3 运行时候的架构1.4 任务的提交Flink1.1 flink实时任务提交的参数(per-job模式)1.2 flink运行时候的架构1.3 任务提交流程(yarn模式)spark1.1 Spark运行模式1)Local:运行在一台机器上。 测试用。2)Standalone:是Spark自身的一个调度系统。 对集群性能要求非常高时用。国内很少使用。3)Yarn:
2021-04-09 12:38:06
610
原创 spark自己的总结
文章目录Spark CoreSpark运行环境Yarn模式Spark运行架构核心组件核心概念Executor与Core并行度(Parallelism)提交流程Yarn Cluster模式提交的时候参数Spark核心编程SparkSQLSparkSQL核心编程DataFrameDataSetSparkStreaming知识点SparkStreamingSparkstreaming的概念背压机制DStream入门过程解析DStream创建Kafka数据源Kafka 0-10 Direct模式DStream转换无
2021-04-06 18:40:23
737
原创 flink一些总结
文章目录1.flink组件2.flink核心概念TaskManger与Slots内存相关Parallelism(并行度)Task与SubTaskOperator Chains(任务链)3.端到端的一致性1.flink组件4.1.1客户端严格上说, 客户端不是运行和程序执行的一部分, 而是用于准备和发送dataflow到JobManager. 然后客户端可以断开与JobManager的连接(detached mode), 也可以继续保持与JobManager的连接(attached mode)客户端作
2021-04-04 19:59:34
772
1
原创 canal和FlinkCDC的总结
1.canalcanal的介绍Canal是基于Mysql二进制的高性能数据同步系统,Canal在阿里巴巴集团中被广泛使用,以提供可靠的低延迟增量数据管道(白话文:其实就是根据mysql的biglog日志,进行增量同步数据)首先了解Canal的原理之前,我们先了解简单了解一下Mysql主从复制原理:1.所有的save、update、delete操作,都会进入主Mysql服务器,也就是Master节点。2.Master节点会生成一个BinLog二进制文件,每次操作Mysql数据库就会记录到二进制
2021-04-03 16:56:57
6028
原创 离线数仓----以及---hive的一些琐碎
1.如何使用datagrip连接hive呢?启动起hadoop集群,然后启动hiveserver2.,然后就可以用datagrip了。2.数仓中增加字段怎么办?1.整个数仓有几张要增加字段的,就执行改几张,分区表改的时候有些区别。2.这种方法有时候不太保险,最好的是,对应的表你重建一张表,把原来表的数据into进去,新加字段补null。//因为原来的表中没有新添加的额那个字段,所以给新添加的按个字段赋值为null。就像这样。insert overwrite 新表select * ,null
2021-04-03 13:53:30
1187
原创 小试牛刀kettle---CSV文件到XLS文件的转化
文章目录第一步:拉取文件格式第二步:输入端第三步:输出端第四步:启动第一步:拉取文件格式鼠标左击,然后拉取到空表位置,即如图所示。输出的话,是Excel输出,也是左击鼠标,然后拖到中间位置。按住shift键,然后鼠标左击CSV文件,然后拖到Excel输出的位置。于是图中就有了一个蓝线。第二步:输入端然后左击CSV文件,点击主输入步骤。既然是CSV文件,列的分割符就是逗号(以逗号为分割的就是CSV文件),还可以预览一下数据。预览完之后,发现正确读取数据,那么就点击确定。上面的
2021-03-10 19:21:34
694
1
原创 FlinkSQL的读入和写出数据
文章目录读取数据file类型的sourcekafka类型的source输出数据file类型的sinkkafka类型的sinkkafka到kafkaES类型的SinkES知识点回顾kafka写到ES当中例子Sink_ES_Upsert读取数据file类型的sourcepackage day06;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.ta
2021-03-05 18:42:24
1649
原创 flinksql自定义函数
官网位置https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/UDF一进一出的方式package day07;import bean.SensorReading;import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;import org.apache.flink.streaming.api.environ
2021-03-05 18:04:21
817
原创 flink动态表中的窗口
flink动态表中的窗口Flink Window作用GroupWindow对window中的数据按照字段进行分组OverWindow在整个Window窗口的条件下,对数据进行统计操作等Table API和SQL需要引入的依赖有两个:planner和bridge。<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-
2021-03-05 17:42:46
1751
原创 flink中动态表的时间特性
flink中动态表的时间特性一、processTime1)DataStream转化成Table时指定 //1.获取执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); env.setStreamTimeCharacteristic(TimeCharacteristic
2021-03-05 16:10:20
746
原创 数仓的同步策略
有时候在想,数仓中的表有同步策略,这个同步策略在哪里看呢?是建表语句吗?显然不是。是在sqoop中看参数。全量同步: 查询最新的分区,就是所有的数据。缺点就是:hdfs越来越大。打个比方:1月1号的数据,存到hdfs之后。1月2号的数据,以及1月1号中发生变化的数据,存到对应1月2号的分区。导数据的时候,导入分时候条件就是创建时间是1月1号的,或者是operate的时间是1月2的(1月1日或者更早的数据在1月2号修改了,那么这个时间就是1月2号)。这样的话,就是导入的是新增得数据,以及.
2021-03-04 18:52:58
431
1
原创 电脑图标一直闪动
电脑的图标一直闪动,很是头疼,应该是中毒之后的杀毒后的反应,非常的幸运,在知乎上看见一个帖子,然后做了之后,恢复了正常,于是就按照它的做法做了一遍。做法:点击win+r打开搜索,在搜索框中输入regedit,然后在搜到的regedit上右击,点以管理员身份运行,打开注册表。计算机\HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\FileExts,右键点击FileExts导出备份,然后删除该项,重启。知乎原文章.
2021-02-14 15:16:52
1332
原创 创建二级索引的时候报错,则需要进行一个设置。
在每个hbase下的conf中的hbase-site.xml,添加如下的代码:<property> <name>hbase.regionserver.wal.codec</name> <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value> </property>然后关闭Phoenix,然后关闭HBASE。然后重启即可,重.
2021-02-12 21:45:16
188
2
原创 kafka客户端的一些使用方法
一: 连接kafka集群点击,进行开启客户端 。连接集群。其中zookeeper host就是主机的地址。添加集群中的每个节点。二:创建主题主题的基本就设置。三:主题中的显示如果某个topic中的data数据是我们看不懂的,那么它就是字节码的形式。那么就需要我们手动转换成string类型。手动转换点击properties,将key和message转换成为string类型。经过转换之后,然后再看data,发现就可以看明白了。...
2021-02-07 20:43:50
331
原创 kafka生产数据的时候,数据格式不对,引发的问题。
在kafka生产数据的时候。生产的数据必然是,到了代码中,按照代码中的Javabean对数据的格式进行约束。然后对应的代码中控制台上打印的结果。这时候,如果上产一个格式和上面标准的格式不一样的数据。直接就是导致了代码的报错。把电脑关机了,重启电脑,然后重新运行,还是爆出这个错误,实在找不出原因来。试了试把主题删除了,然后重新创建topic,然后重新运行,发现是代码没有报错。代码上看是没有错误了,但是原来topic上面的数据呢?删了topic的话,数据就相当于是删除了。数据消费到了下游
2021-02-07 14:12:36
742
原创 ScalaSDK转换版本
idea中用的是2.12的版本,项目中使用的是2.11版本,如何降低了?第一步:打开结构第二步:添加需要的版本注意用的是browse,找到下载的2.11版本的位置。自己下载版本的位置保留用到的版本。...
2021-02-07 09:44:57
435
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人