
Bigdata
刘金超DT
让数据说话,让未来透明
展开
-
TCP与UDP区别总结
1、TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接2、TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP尽最大努力交付,即不保证可靠交付Tcp通过校验和,重传控制,序号标识,滑动窗口、确认应答实现可靠传输。如丢包时的重发控制,还可以对次序乱掉的分包进行顺序控制。3、UDP具有较好的实时性,工作效率比...原创 2019-07-13 00:46:03 · 267 阅读 · 0 评论 -
kafka集群架构图
翻译 2019-08-05 22:04:56 · 2454 阅读 · 0 评论 -
spark源码之旅
原创 2019-08-13 23:31:32 · 153 阅读 · 0 评论 -
Flink中的背压处理原理
什么原因导致背压?流系统中消息的处理速度跟不上消息的发送速度,导致消息的堆积。如果系统能感知消息堆积,并调整消息发送的速度,使消息的处理速度和发送速度相协调就是有背压感知的系统。背压如果不能得到正确地处理,可能会导致资源被耗尽或者甚至出现更糟的情况导致数据丢失。flink就是一个有背压感知的基于流的分布式消息处理系统。如下图:1、消息发送的太快,消息接受的太慢,产生消息拥堵。2、发生消息...原创 2019-09-01 20:13:22 · 3808 阅读 · 0 评论 -
CEP-Flink的复杂事件处理(一)
Flink CEP背景介绍随着无处不在的传感器网络和智能设备不断收集越来越多的数据,我们面临着以近实时的方式分析不断增长的数据流的挑战。 能够快速响应不断变化的趋势或提供最新的商业智能可能是公司成功或失败的决定性因素。 实时处理中的关键问题是检测数据流中的事件模式。复杂事件处理(CEP)恰好解决了对连续传入事件进行模式匹配的问题。 匹配的结果通常是从输入事件派生的复杂事件。 与对存储数据执行...原创 2019-09-03 00:21:41 · 3848 阅读 · 0 评论 -
Canal解决MySQL海量数据迁移问题
模拟业务场景:一个大型的电商网站,每天都需要分析当天的成交量。如果使用mysql去分析,会非常慢 ,甚至会导致mysql宕机。要进行海量数据分析,需要将mysql中的数据同步到其他的海量数据存储介质(HDFS、hbase)中。那如何来导出呢?sqoop 解决方案一:使用sqoop定期导出mysql的数据到hbase或hdfssqoop导出mysql的数据,需要通过sql语句来查询数据,...原创 2019-09-03 20:59:11 · 2299 阅读 · 0 评论 -
Apache Impala零差错安装攻略
Apache Impalaimpala 介绍基于hive的数仓工具 提供了准实时的交互式sql查询分析能力 和hive共用一套元数据存储hive是基于hadoop的数仓工具 提供了sql分析数据的能力 批处理数据分析工具是企业中 imapla通常配合hive一起进行数仓数据分析来自于cloudera 后来贡献给了apacheimpala和hive的关系和hive共用一套...原创 2019-07-14 01:57:24 · 630 阅读 · 0 评论 -
时间维度表脚本
时间维度表创建的脚本根据不同的也无需求选择需要的字段即可!在MySQL里面创建存储过程--创建dim数据库,使用utf8编码create database dim DEFAULT CHARACTER SET utf8;--切换到dim数据库use dim;--创建dim_day表create table dim_day(DAY_ID varchar(100),DAY_SH...原创 2019-09-08 21:31:49 · 1100 阅读 · 0 评论