自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 Flink RocksDB

前言概述流处理应用程序通常是有状态的,通过保存已处理事件的信息,用于影响未来事件的处理。Flink中保存的事件信息,即状态,会被存储在已经配置的状态后端中。为避免应用程序故障时造成数据丢失,状态后端会定期将其快照持久化到预先配置的持久存储中。RocksDB状态后端(RocksDBStateBackend)是Flink三个内置状态后端之一。本文主要描述使用RocksDB管理Flink作业状态的好处、如何、何时使用它,并澄清一些常见的误区。尽管如此,本文并不负责解释RocksDB内部机制及如何进行故障排除和性

2021-11-01 16:52:54 4794

原创 爬虫

爬虫爬虫原理与数据抓取通用爬虫和聚焦爬虫背景现在是"大数据时代",那数据从何而来?企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询爬取网络数据:如果需要的数据市场上没有,那么就可以去爬取。什么是网络爬虫网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的

2021-09-23 17:53:45 1852

原创 python基础

pythonpython概述基础语法流程控制字符串组合数据类型函数文件操作异常模块面向对象 ##### python概述第一个python程序print("hello python")print("hello world")认识python起源1989 年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的解释程序,作为 ABC 语言的一种继承(感觉下什么叫牛人)ABC 是由吉多参加设计的

2021-09-15 16:44:15 782

原创 Filebeat日志采集使用方式

Filebeat日志采集使用方式最近由于业务需求,需要通过filebeat采集日志文件到kafka中,供flink消费,其具体步骤如下:安装filebeat文件配置filebeat-input.yml文件配置- backoff: 1s backoff_factor: 2 clean_inactive: 25h close_inactive: 2h encoding: plain fields: {NODE_IP: '日志所在节点', target_topic: 目标

2021-08-17 15:30:37 789

原创 Flink调用dubbo接口写入kafka时遇到的一些问题解决

Flink调用dubbo接口写入kafka时遇到的一些问题解决org.apache.kafka.common.KafkaException: Failed to construct kafka producer at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:416) at org.apache.kafka.clients.producer.KafkaProducer.<in

2021-07-22 16:36:04 605

原创 Flink 如何远程调用dubbo接口

Flink 如何远程调用dubbo接口在flink开发过程中,有时候需要远程调用dubbo接口,其实现方式如下:/**依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>dubbo</artifactId> <version>2.5.3</version>

2021-07-08 14:31:52 1184

转载 Flink 网络流控与反压机制

Flink 流处理为什么需要网络流控?分析一个简单的 Flink 流任务,下图是一个简单的Flink流任务执行图:任务首先从 Kafka 中读取数据、 map 算子对数据进行转换、keyBy 按照指定 key 对数据进行分区(相同 key 的数据经过 keyBy 后分到同一个 subtask 实例中),keyBy 后对数据接着进行 map 转换,然后使用 Sink 将数据输出到外部存储。众所周知,在大数据处理中,无论是批处理还是流处理,单点处理的性能总是有限的,我们的单个 Job 一般会运行在多个.

2021-07-06 16:45:53 387

转载 FlinkSQL流表与维表join 和 双流join

维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,补充事实表的信息。在实时数仓中,同样也有维表与事实表的概念,其中事实表通常为kafka的实时流数据,维表通常存储在外部设备中(比如MySQL,HBase)。对于每条流式数据,可以关联一个外部维表数据源,为实时计算提供数据关联查询。维表可能是会不断变化的,在维表JOIN时,需指明这条记录关联维表快照的时刻。本文主要介绍1、流表和维表的区别2、流表和维表join的数据流转解析3、双流join的数据流转解析4、代码示例和场景 1、流表和维表的区别:

2021-07-06 10:21:41 2994 6

原创 idea使用git提交代码时报错Push failed Bad boolean config value ‘“false”‘ for ‘http.sslverify‘

idea使用git提交代码时报错Push failed: Bad boolean config value ‘“false”’ for ‘http.sslverify’开始解决办法在使用git向gitlab提交代码时报错Push failed: Bad boolean config value ‘“false”’ for ‘http.sslverify’,明显的参数配置错误,但是使用命令git config --global http.sslVerify false设置global(用户级别)

2021-07-01 17:59:56 5865 9

原创 11 Flink CEP 简介

11 Flink CEP 简介复杂事件处理 CEP一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。特征:目标:从有序的简单事件流中发现一些高阶特征输入:一个或多个由简单事件构成的事件流处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件输出:满足规则的复杂事件CEP 用于分析低延迟、频繁产生的不同来源的事件流。CEP 可以帮助在复杂的、不相关的事件流中找出有意义的模式和复杂的关系,以接近实时或准

2021-06-29 16:32:51 178

原创 10 Flink Table API 和 SQL

10 Flink Table API 和 SQLTable API 是流处理和批处理通用的关系型 API,Table API 可以基于流输入或者批输入来运行而不需要进行任何修改。Table API 是 SQL 语言的超集并专门为 Apache Flink 设计的,Table API 是 Scala 和 Java 语言集成式的 API。与常规 SQL 语言中将查询指定为字符串不同,Table API 查询是以 Java 或 Scala 中的语言嵌入样式来定义的,具有 IDE 支持如:自动完成和语法检测。p

2021-06-29 16:01:04 282

原创 9 状态编程和容错机制

9 状态编程和容错机制流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过 90 度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。所有用于复杂事件处理的状态机。例如,若在一分钟内收到两个相差 20 度以上的温度读数,则发出警告,这是有状态的计算 。流与流之间的所有关联操作,以及流与静态表或动态表之间的关联操作

2021-06-28 15:37:37 289

原创 8 Flink 底层API ProcessFunction API

8 Flink 底层API ProcessFunction APIDataStream API 提供了一系列的 Low-Level 转换算子。可以访问时间戳、watermark 以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function 用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window 函数和转换算子无法实现)。例如,Flink SQL 就是使用 ProcessFunction 实现的。Flink 提供了 8 个 Process Function:

2021-06-25 14:32:49 126

原创 7 时间语义与watermark

7 时间语义语watermarkFlink中的时间语义Enent Time是事件创建的时间。它通常由事件中的时间戳描述,例如采集的 日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事 件时间戳。Ingestion Time数据进入flink的时间Processing Time是每一个执行基于时间操作的算子的本地系统时间,与机器 相关,默认的时间属性就是 Processing Time。、EventTime的引入在 Flink 的流

2021-06-25 00:52:08 202

原创 6 Flink 窗口及其函数

6 Flink 窗口及其函数window窗口概述streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。注意:window窗口本质是一个bucket桶,数据每来一条,就将数据放入其所属的桶内如上图所示,对于流

2021-06-24 17:18:22 356

原创 5 Flink 流处理API

5 Flink 流处理APIEnviromentpackage env;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.streaming.api.environment.LocalStreamEnvironment;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/** *

2021-06-23 23:10:30 194

原创 4 Flink 运行架构

4 Flink 运行架构Flink 运行时的组件Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为 Flink 是用 Java 和 Scala 实现的,所以所有组件都会运行在Java 虚拟机上。每个组件的职责如下:作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被

2021-06-23 17:37:56 214 4

原创 3 Flink部署

3 Flink部署Standalone 模式Standalone 是 Flink 自带的服务管理模式,不需要依赖于其他分布式组件,也不需要提前安装其他第三方服务,从而达到开箱即用的效果。Yarn 模式Flink 提供了两种在 yarn 上运行的模式,分别为 Session-Cluster 和 Per-Job-Cluster模式。Session-Cluster模式Session-Cluster 模式需要先启动集群,然后再提交作业,接着会向 yarn 申请一块空间后,资源永远保持不变。

2021-06-23 10:42:02 486

原创 2 Flink 初体验

单词统计(dataStream)package wordcount;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink.streaming.api.datastream.DataS.

2021-06-22 18:06:58 308 1

原创 1 什么是Flink?

什么是Flink?初识flinkFlink 源于 Stratosphere 项目,2014 年 12 月,Flink 成为 Apache 软件基金会的顶级项目。Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。Flink重要特点事件驱动型事件驱动应用程序是一种

2021-06-22 16:53:58 451

原创 从gitlab克隆项目时报错Authentication failed for xxx

使用Idea从gitlab上克隆项目时,报错Authentication failed for xxx,刚开始以为是没有项目的权限,但是有了权限以后还是报错,直接使用项目http链接登录,发现gitlab登录不了。最终发现是因为修改了电脑的域密码,所以导致登录不了,所以进行了如下设置:1 点击我的电脑,属性2 找到控制面板,凭据管理器3 windows凭据,普通凭据4 将之前的git凭据删除进行上述步骤以后,重新下载,会出现提示框,让重新输入用户名和密码,此时重新输入用户名和密

2020-09-27 15:45:37 846

原创 java.lang.OutOfMemoryError: Java heap space解决方案

项目场景:本地向kafka中生产数据,flink程序分流处理时,报错java.lang.OutOfMemoryError: Java heap space问题描述:本地向kafka中生产数据,flink程序分流处理时,在某个tag下进行数据封装时,一直报错java.lang.OutOfMemoryError: Java heap space,根据报错信息发现是在从数据库中查询数据时导致内内存溢出,在JVM中如果98%的时间是用于GC且可用的 Heap size 不足2%的时候将抛出此异常信息

2020-09-23 16:23:26 4462

原创 secure CRT连接linux系统实现远程登陆

secure CRT连接linux系统实现远程登陆1 工具Vmware15 pro(其他版本类似)Centos7(其他版本类似)secure CRT2 安装及配置Vmware15 pro下载连接:https://www.7down.com/soft/310753.htmlCentos7下载链接:http://isoredirect.centos.org/centos/8/isos/x86_64/secure CRT下载连接:https://www.newasp.net/soft/16364.ht

2020-07-07 15:06:55 603

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除