
Flink
文章平均质量分 56
远方时光
终身学习者
展开
-
Spark面试题
主要从以下 3 个方面进行分析,大纲如下:一、Spark 基础篇1、Spark 是什么?Spark 是一个通用分布式内存计算引擎。2009 年在加州大学伯克利分校 AMP 实验室诞生,2014 年 2 月,Spark 成为 Apache 的顶级项目。Logo 标志如下:2、Spark 有哪些特点?Spark 使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,具有以下特点:1. 运行速度快:Spark 拥有DA...转载 2022-01-17 21:10:17 · 1797 阅读 · 1 评论 -
大数据流处理(Flink)方向面试
1 面试官:请简短的做个自我介绍。面试官,您好!我叫 xxx , xxxx 年 x 月毕业于 xxx 学校,xx 学历,目前就职于 xxx 公司 xxx 部门,职位为:大数据开发工程师,主要从事于 Flink 流计算组件、平台的开发工作。工作以来,我先后参加了 xxx 项目、xxx 项目以及 xxx 项目,积累了丰富的项目经验,同时,这 x 个项目都得到了领导的一致好评。我对流计算组件有着浓厚的兴趣,工作之余经常钻研技术、例如:Flink 四大基石、Flink 内核应用提交流程、Flink 调转载 2022-01-17 21:02:27 · 1288 阅读 · 0 评论 -
Exactly-Once一致性语义: 对比Spark/Flink流处理模型
分享自微信公众号:大数据兵工厂Exactly-Once delivery。在很多评论中,甚至被认为是理论上几乎不可解决的问题。对于此技术话题的理解,可谓见仁见智,而在流处理领域中的Exactly-Once一致性语义则是大数据开发者必须掌握的核心知识点。海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?话不多说,我将从如下几点内容对此问题进行阐释: 什么是Exactly-Once一致性语义 Apache Spark的Exactly-on.原创 2021-11-16 16:46:17 · 1966 阅读 · 0 评论 -
Flink面试题精简
Flink基础:1 简单介绍一下 Flink1. Flink 是一个框架和分布式处理引擎,2. 用于对无界和有界数据流进行有状态计算。3. Flink 提供了数据分布、容错机制以及资源管理等核心功能。4. Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集DataStream API,对数据流进行流处理操作,将流式的数据抽象成分布式的数据流Table API,对结构化数据进行查询操..原创 2021-09-08 22:09:09 · 712 阅读 · 0 评论 -
Flink_两条流intervalJoin(b流在a流规定时间范围内jion)
到账时间比下单时间早三秒,晚5秒 两条流合并import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.co.ProcessJoinFunctionimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.windowing.time.Time原创 2021-09-05 15:52:49 · 625 阅读 · 0 评论 -
Flink_来自两条流的订单交易匹配(Connect, CoProcessFunction)
对于订单支付事件,用户支付完成其实并不算完,我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息,所以我们要同时读入两条流的数据来做合并处理 。这里我们利用connect 将两条流进行连接 , 然后用自定义的CoProcessFunction 进行处理。import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api...原创 2021-09-05 15:32:25 · 490 阅读 · 0 评论 -
Flink_订单支付实时监控 (利用CEP)
在电商网站中,订单的支付作为直接与营销收入挂钩的一环,在业务流程中非 常重要。对于订单而言,为了正确控制业务流程,也为了增加用户的支付意愿,网站一般会设置一个支付失效时间,超过一段时间不支付的订单就会被取消。另外, 对于订单的支付,我们还应保证用户支付的正确性,这可以通过第三方支付平台的交易数据来做一个实时对账。在电商平台中,最终创造收入和利润的是用户下单购买的环节;更具体一点, 是用户真正完成支付动作的时候。用户下单的行为可以表明用户对商品的需求,但在现实中,并不...原创 2021-09-05 15:03:35 · 844 阅读 · 0 评论 -
Flink_恶意登录监控 (利用CEP)
对于网站而言,用户登录并不是频繁的业务操作。如果一个用户短时间内频繁登录失败,就有可能是出现了程序的恶意攻击,比如密码暴力破解。因此我们考虑, 应该对用户的登录失败动作进行统计,具体来说,如果同一用户(可以是不同 IP) 在 2 秒之内连续两次登录失败,就认为存在恶意登录的风险,输出相关的信息进行报警提示。这是电商网站、也是几乎所有网站风控的基本一环。会用到 flink 的 CEP 库来实现事件流 ,方法三:利用CEP是重点方法。pom 文件中引入 CEP 的相关依赖:...原创 2021-09-05 14:19:59 · 1071 阅读 · 0 评论 -
Flink_ 页面广告点击量统计(黑名单过滤)
页面广告分析_页面广告点击量统计电商网站的市场营销商业指标中,除了自身的 APP 推广,还会考虑到页面上的 广告投放(包括自己经营的产品和其它网站的广告)。所以广告相关的统计分析, 也是市场营销的重要指标。 对于广告的统计,最简单也最重要的就是页面广告的点击量,网站往往需要根 据广告点击量来制定定价策略和调整推广方式,而且也可以借此收集用户的偏好信 息。更加具体的应用是,我们可以根据用户的地理位置进行划分,从而总结出不同 省份用户对不同广告的偏好...原创 2021-09-04 20:21:38 · 679 阅读 · 0 评论 -
Flink_APP 市场推广 分渠道统计(自定义测试数据源)
市场营销商业指标统计分析_APP 市场推广统计(不同网站上广告链接的点击量、APP 下载量)每5秒统计一次一天内,不同渠道的不同行为的,操作数据数据。输出:MarketViewCount(2021-09-03 16:58:15.0,2021-09-04 16:58:15.0,tieba,install,6) 贴吧安装6次MarketViewCount(2021-09-03 16:58:15.0,2021-09-04 16:58:15.0,weibo,view,7) 微博浏览了7次..原创 2021-09-04 19:11:23 · 530 阅读 · 0 评论 -
Flink_网站独立访客数(UV)(Redis+布隆过滤器)
网站的独立访客数(Unique Visitor,UV)。UV 指的是一段时间(比如一小时)内访问网站的总人数,1 天内同一访客的多次访问 只记录为一个访客。(对同样用户IP去重)输入数据:方法一:全窗口函数 + set集合去重(风险,数据量大可能内存不足)import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala.{DataStream, .原创 2021-09-04 16:06:41 · 813 阅读 · 0 评论 -
Flink_网站总浏览量(PV)的统计
1、PV(page view)即页面浏览量;用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。2.UV(unique visitor)指访问某个站点或点击某条新闻的不同IP地址的人数。在同一天内,uv只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。衡量网站流量一个最简单的指标,就是网站的页面浏览量(Page View,PV)。 ...原创 2021-09-04 15:20:49 · 1894 阅读 · 0 评论 -
Flink_热门页面浏览数
先实现“热门页面浏览数”的统计,也就是读取服务器日志中的每一行 log,统计在一段时间内用户访问每一个 url 的次数,然后排序输出显示。 具体做法为:每隔 5 秒,输出最近 10 分钟内访问量最多的前 N 个 URL。可以看出,这个需求与之前“实时热门商品统计”非常类似。输入数据:数据示例:83.149.9.216 - - 17/05/2015:10:05:03 +0000 GET /presentations/logstash-monitorama-2013/im..原创 2021-09-04 12:59:27 · 287 阅读 · 0 评论 -
Flink_实时热门商品统计
示例:662867 2244074 1575622 pv 1511658000 实现一个“实时热门商品”的需求,可以将“实时热门商品”翻译成程 序员更好理解的需求:每隔 5 分钟输出最近一小时内点击量最多的前 N 个商品。将 这个需求进行分解我们大概要做这么几件情: 1. 抽取出业务时间戳,告诉 Flink 框架基于业务时间做窗口 env.setStreamTimeCharacteristic(TimeCharacteristic...原创 2021-09-04 12:31:46 · 858 阅读 · 0 评论 -
Flink实时电商的用户行为分析
本内容仅用于个人学习笔记批处理批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。可以认为,处理的是用一个固定时间间隔分组的数据点集合。批处理模式中使用的数据集通常符合下列特征: – 有界:批处理数据集代表数据的有限集合 – 持久:数据通常始终存储在某种类型的持久存储位置中 – 大量:批处理操作通常是处理极为海量数据集的唯一方法 流处理流处理可以对随时进入系统的数据进行计算。流处理方式无需针对整个数据集执行操作,而是对...原创 2021-09-04 12:16:01 · 702 阅读 · 0 评论 -
flink 的sink
1. 写入到 kafka<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.11_2.12</artifactId> <version>1.10.1</version> </dependency>package com.atguigu.apitest.si原创 2021-08-15 20:14:54 · 220 阅读 · 0 评论 -
flink 的Transform算子
package apiTestimport org.apache.flink.streaming.api.scala._object TransformTest { def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(1) //.原创 2021-08-15 14:17:42 · 153 阅读 · 0 评论 -
flink数据源读取方式
package apiTestimport java.util.{Properties, Random}import org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala._import org.apac.原创 2021-08-15 12:07:57 · 542 阅读 · 0 评论 -
Flink运行架构
4.1 Flink运行时的组件Flink运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为Flink是用Java和Scala实现的,所以所有组件都会运行在Java虚拟机上。每个组件的职责如下:作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager所控制执原创 2021-05-24 19:33:24 · 140 阅读 · 0 评论