
Flink
文章平均质量分 93
小满锅lock
微信公众号 小满锅
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Flink】实时归因场景踩坑
背景前几天思考了一个问题,在很多业务场景下,需要关注流量的来源或是某个业务哪个入口的流量最大,带来的效益最多,那么就涉及到流量的归因了。比如说,我是一个bilibili up主,那么我想知道我的某个视频到底是首页推荐的流量比较多,还是用户搜索带来的比较多。我觉得得分为两种情况应用埋点质量非常差的情况下,那么在一些APP或者H5发展之初,是不会太去注重埋点的质量,当流量密码时代到来了,才发现这是一个风口,埋点标准化改造就是一个必不可少的环节。那么在改造之前,就只能靠数据自己去归因,即按照时间窗口,根据用原创 2022-04-09 12:22:08 · 4009 阅读 · 1 评论 -
Flink SQL系列-在流数据Table中去执行Join
先来看看对比一下以前的join,如果对于普通的关系型数据库,我们很容易就想到join应该怎么做的,先来两个场景。场景一加入要计算某天对于第7天的留存率,那么对于传统关系型数据库来说,我们只需要计算出留存用户,然后和当天的用户活跃数去做个比值就OK了。insert into retention_userselect a.id,b.idfrom a left join b on a.id =...原创 2020-04-24 14:11:54 · 2851 阅读 · 0 评论 -
Flink SQL系列 关于Stream中的Dynamic Tables
我们以前使用的关系型数据库,比如mysql这种,都是统一个静态表,供我们查询,不管我们有多少数据,最好低于百万级别,都可以对某个表的所有数据进行统一操作,但是这仅仅就是一个静态表而已,也就是说,你的一次操作就会让数据编程另一种状态,比如你在中午表的状态是A状态,到了晚上你修改了一条数据,那么现在就变成了B状态了。我们在某个时间点去看,因为有这么大的时间跨度,就是一种静态表,而且它里面的数据涵盖的时...原创 2020-04-23 23:55:42 · 663 阅读 · 0 评论 -
Flink SQL系列:Table API使用
下面有两种API,分别是Apache社区的原生Flink API,还有一种是经过阿里优化过的一种APi,叫做Blink,两种API对于Batch和Stream有一些区别1:Blink对于“批”表会当做“流”表处理,所以“批”表和Dataset之间是不可以转换的,而DataSet回当做DataStream程序去处理,而DataStream和“流”表之间可以相互转换的。package flin...原创 2020-04-23 21:47:36 · 1918 阅读 · 0 评论 -
Flink消费Kafka数据
package flinkjava.Connecter.Kafka;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.Strin...原创 2020-03-28 17:40:40 · 1287 阅读 · 0 评论 -
java和flink实现kmeans,并实现‘“音吧”APP的人群推广
java实现K-Means基本节点类 public Point(int id, float[] localArray) { this.id = id; this.localArray = localArray; } public Point(float[] localArray) { this.id = -1; //表示...原创 2020-03-08 22:02:04 · 260 阅读 · 0 评论 -
基于java和Flink实现逻辑回归和“音吧”APP的性别预测
java实现逻辑回归基本矩阵类:Matrixpackage flinkjava.LR;import java.util.ArrayList;/** * 保存特征信息 * 主要保存特征矩阵 * */public class Matrix { /** * 分为两层ArrayList * 外面代表行 * 里面代表列 * */ pu...原创 2020-03-08 16:46:09 · 33720 阅读 · 0 评论 -
Flink容错与状态一致性保证(文末有抽奖福利)
CheckPoint机制为了进行容错,我们在进行Flink的处理的时候,需要进行容错管理,难免我们的应用会发生故障的。而Flink提供了这样的一种容错机制CheckPoint,它能够保证Flink内部的一致性,实现内部Exact Once语义。首先看看什么是CheckPoint机制它是受Chandy-Lamport算法的启发,形成的一种轻量级的分布式快照,它的意思是每个操作(具体到是每一个并...原创 2020-03-06 11:32:18 · 32933 阅读 · 0 评论 -
Flink:把状态State全都扒光,远走他乡(二):广播状态
受到原创 2020-03-05 16:51:29 · 32243 阅读 · 0 评论 -
Flink行走江湖Operators:底层API-Process Function
我们知道,Flink把API分成了好几层,每一层所能够看到的都各不相同。最底层的就是Process Function,它能够访问events访问状态State(容错,一致性,但是仅仅是在keyed流上)计时器,也仅仅在keyed流上。...原创 2020-03-04 17:40:56 · 32324 阅读 · 0 评论 -
Flink水涨船高:EventTime和WaterMark
之前对于ProcessingTime,作为一种当前计算机的处理时间,我们不用在意它数据到来的顺序,一切以我当前计算机的时间为准,不用协调其他的计算机节点。但是呢对于EventTime,拿我们Web网站的日志来说,EventTime即是日志中的时间戳,但是发送数据的情况不可能总是那么理想,到达Flink的顺序不可能刚好是时间戳的顺序,为了控制这种乱序的情况,引入了WaterMark,中文翻译暂时是...原创 2020-03-04 17:08:11 · 32352 阅读 · 0 评论 -
Flink:把状态State全都扒光,远走他乡(一):State初始
State:State是指流计算过程中计算节点的中间计算结果或元数据属性,比如 在aggregation过程中要在state中记录中间聚合结果,比如 Apache Kafka 作为数据源时候,我们也要记录已经读取记录的offset,这些State数据在计算过程中会进行持久化(插入或更新)。所以Apache Flink中的State就是与时间相关的,Apache Flink任务的内部数据(计算数据...原创 2020-03-04 17:07:11 · 33489 阅读 · 0 评论 -
网站日志实时分析(二):Flink处理实时热门组件,PV,布隆实现UV统计
实时热门统计操作步骤:先从Kafka读取消费数据使用map算子对数据进行预处理过滤数据,只留住pv数据使用timewindow,每隔10秒创建一个20秒的window然后将窗口自定义预聚合,并且兹定于窗口函数,按指定输入输出case操作数据上面操作时候返回的是DataStream,那么就根据timestampEnd进行keyby使用底层API操作,对每个时间窗口内的数据进行排序,...原创 2020-03-02 17:43:29 · 33463 阅读 · 0 评论 -
网站日志实时分析(一):flume+kafka+Flink连通
这里flume+kafka+Flink Cluster总体架构就是这个样子。我们将多个Tomcat Server的Web服务器,或者其他的网站服务器都看你而定,没台节点上都配置了Flume Agent,用来收集本地日志目录。然后在另一台节点配置了Flume Consolidation Agent,用来收集各个Web服务器的Flume Agent的数据,然后送入Kafka Cluster。然后K...原创 2020-03-02 15:52:44 · 7642 阅读 · 2 评论 -
Flink Do It!!
官网:flink.apache.org选择你自己想要的版本下载之后,就解压执行命令./start-cluster看到这两个进程,说明单节点运行没问题,也就是伪分布咯。访问IP:8081(默认端口是8081)在集群执行程序先上代码:用的IDEA,而且是Maven项目pom.xml<?xml version="1.0" encoding="UTF-8"?>...原创 2020-02-21 17:07:31 · 465 阅读 · 0 评论