- 博客(12)
- 资源 (14)
- 收藏
- 关注
原创 《Flink应用实战》(五)--流合并-Connect算子
只能用于连接两个DataStream流,不能用于DataSet;连接的两个数据流数据类型可以不同。连接后两个流可以使用不同的处理方法,两个流可以共享状态。连接的结果为一个ConnectedStream流。连接的两个流可以是DataStream或者是BroadcastStream(广播数据流)。连接两个DataStream流,返回一个新的ConnectedStream}}............
2022-07-25 10:56:33
3285
原创 《Flink应用实战》(四)--合并流-IntervalJoin算子
Flink 中的两个流要实现 Join 操作,必须满足以下两点:流需要能够等待,即:两个流必须在同一个窗口中;双流等值 Join,即:两个流中,必须有一个字段相等才能够 Join 上。Flink 中支持双流 Join 的算子目前已知有5种,如下::union 支持双流 Join,也支持多流 Join。多个流类型必须一致;:connector 支持双流 Join,两个流的类型可以不一致;:该方法只支持 inner join,即:相同窗口下,两个流中,Key都存在且相同时才会关联成功;:同样能够实现双流 Joi
2022-06-14 17:07:44
1554
原创 国家信息分类和编码标准
《信息分类和编码标准》是对GB/T 7027-1986《标准化工作导则 信息分类编码的基本原则和方法》的修订。在信息编码部分内容上,《信息分类和编码标准》参考了国际技术报告ISO/IEC TR 9789:1994(E)《信息技术— 数据交换用数据元素组织与表示指南— 编码方法与原理》,采纳了其中比较成熟的相关技术内容。.........
2022-06-08 16:44:07
5233
原创 《Flink应用实战》(三)--合并流-Union算子
1 用于DataStream时,返回是Datastream;用于DataSet时,返回是DataSet;2 可以多个流一起合并(stream1.union(stream2,stream3,stream4)),合并结果是一个新Datastream;只能2个DataSet一起合并,合并结果是一个新DataSet3 无论是合并Datastream还是合并DataSet,都不去重,2个源的消息或记录都保存。4 不可以union 2个类型不同的流或union 2个类型不同的数据集............
2022-06-04 11:10:00
1763
1
原创 《Flink应用实战》(二)--窗口函数聚合计算
窗口计算是流式计算中常用的数据计算方式之一,通过按照固定时间或长度将数据流切分成不同的窗口,再对数据进行相应的聚合操作,得到一定时间范围内的统计结果,例如统计最近5分钟内某网站的点击数,此时,点击数据在不断产生,通过5分钟窗口将数据限定在固定时间范围内,就可以对该范围内的有界数据执行聚合,得到最近5分钟的网站点击数。2、窗口计算函数分类• Flink提供了四种类型的窗口计算函数,分别是ReduceFunction、AggregateFunction、Fol...
2022-05-23 10:08:23
2565
原创 大数据架构之--Kappa架构
一、什么是Kappa架构Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想。克雷普斯是几个著名开源项目(包括 Apache Kafka 和 Apache Samza 这样的流处理系统)的作者之一。Kreps 提出了一个改进 Lambda 架构的观点: 通过改进 Lambda 架构中的Speed Layer,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据 Kappa架构的原理是:在Lambd
2022-03-08 19:08:32
15568
原创 大数据架构之-- Lambda架构
一、什么是Lambda架构Lambda架构由Storm 的作者 [Nathan Marz] 提出, 根据维基百科的定义,Lambda 架构的设计是为了在处理大规模数据时,同时发挥流处理和批处理的优势。通过批处理提供全面、准确的数据,通过流处理提供低延迟的数据,从而达到平衡延迟、吞吐量和容错性的目的。为了满足下游的即席查询,批处理和流处理的结果会进行合并。二、Lambda架构组成Lambda 架构包含三层,Batch Layer、Speed Layer 和 Serving Layer。架.
2021-12-14 18:54:56
20632
1
转载 Python的regex模块——更强大的正则表达式引擎
Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个:固化分组 Atomic grouping占有优先量词 Possessive quantifiers可变长度的逆序环视 Variable-length lookbehind递归匹配 Recursive patterns(起始/继续)位置锚\G Search anchor
2017-06-07 00:26:45
13169
转载 Django新手图文教程
一、Django简介 百度百科:开放源代码的Web应用框架,由Python语言编写...... 重点:一个大而全的框架,啥都替你考虑好了。1. web框架介绍 具体介绍Django之前,必须先介绍WEB框架等概念。 web框架: 别人已经设定好的一个web网站模板,你学习它的规则,然后“填空”或“修改”成你自己需要的样子。 一般web框架的架构是这样的:
2017-05-30 11:17:10
1321
转载 kettle和MongoDB之间的数据同步
最近有一个调优的项目设计到MongoDB数据转移到Mysql库进行数据分析。以下是利用kettle对数据的转换的介绍:1:MongoDb的查询: 主要是基于json格式:具体的查询可以见连接MonGoDb的查询语句。 数据集是 由于带有时间戳timestamp,可以在kettle中基于时间戳对其增量读取。2:kettle对于这种非关系型的数据库的设置主要是利用big
2016-10-18 17:33:55
6844
SqlServer2008 实战管理源代码
2014-06-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人