大数据实时仓库
文章平均质量分 62
jsp_will
熟悉多种语言是优点 也是缺点
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink 运行时的组件
Flink主要资源:JobManager:作业管理器TaskManager:任务管理器ResourceManager:资源管理器Dispacher:分发器作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager控制执行。JobManager会接受到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其他资源的JAR包。原创 2021-11-08 21:47:33 · 1551 阅读 · 0 评论 -
大数据技术Flink电商实时数仓DWD数据层准备--第3章 功能2:准备用户日志DWD层
们前面采集的日志数据已经保存到Kafka中,作为日志数据的ODS层,从kafka的ODS层读取日志数据分为3类:页面日志,启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分的不同的日志写回Kafka不同主题中,作为日志DWD层。 页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流3.1主要任务3.1.1识别新老用户 本身客户端有新老用户的标识,但是不够准确,需要用...原创 2021-06-24 22:39:05 · 525 阅读 · 0 评论 -
大数据技术Flink电商实时数仓DWD数据层准备--第2章 功能1:环境搭建
2.1新建工程gmall2021-realtime2.2创建如下结构目录 作用 app 产生各层数据的flink任务 bean 数据对象 common 公共常量 utils 工具类 这里采用了java与scala语言混编,java主要写一个实体类与工具,scala主要用于写flink任务,也可以全部采用java写,写scala的主要原因是防止scala生疏。2.3修改配置文件2.3.1在pom.xml添加如下...原创 2021-06-24 05:55:48 · 414 阅读 · 0 评论 -
大数据技术Flink电商实时数仓DWD数据层准备--第1章 需求分析及实现思路
1.1分层需求分析 建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求,不至于从原始数据进行计算,而是从半成品继续加工而成。我们这里从kafka的ods层读取用户行为日志以及业务数据,并进行简单处理,写回kafka作为dwd层。...原创 2021-06-17 05:56:17 · 590 阅读 · 0 评论 -
大数据技术Flink电商实时数仓-数据采集--第五章 业务数据库采集
5.1Maxwell介绍Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。官网:http://maxwells-daemon.io/5.2 Maxwell的工作原理5.2.1MySQL主从复制过程Master 主库将...原创 2021-05-16 22:44:55 · 639 阅读 · 0 评论 -
大数据技术Flink电商实时数仓-数据采集--第四章 日志数据采集
4.1模拟日志生成器的作用这里提供了一个模拟生成数据的 jar 包,可以将日志发送给某一个指定的端口,需要大数据程序员了解如何从指定端口接收数据并数据进行处理的流程。(1) 拷贝/资料/数据生成脚本/行为数据的内容到 hadoop102 的/opt/module/rt_applog目录[hadoop@hadoop102 rt_applog]$ pwd/opt/module/rt_applog[hadoop@hadoop102 rt_applog]$ ll总用量 15284-rw-.原创 2021-05-16 16:40:47 · 747 阅读 · 0 评论 -
大数据技术Flink电商实时数仓-数据采集--第三章 仓库架构分析
3.1离线架构分析3.2实时架构埋点用户行为数据:用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、收藏等。原创 2021-05-15 11:00:14 · 272 阅读 · 0 评论 -
大数据技术Flink电商实时数仓-数据采集--第二章 实时需求概览
2.1离线计算与实时计算的比较离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapReduce 方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。从技术操作的角度,这部分属于批处理的操作。即根据确定范围的数据一次性计算。实时计算:输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据.原创 2021-05-15 10:42:21 · 427 阅读 · 0 评论 -
大数据技术Flink电商实时数仓-数据采集--第一章 实时数据介绍
1.1 普通实时计算与实时数仓的比较普通实时计算优先考虑时效性,所以从数据采集经过实时计算直接得到结果,如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以面对大量实时需求的时候,计算的复用性较差,开发成本随着需求直线上升。实时数仓基于一定的数据仓库理论,对数据处理流程进行规划,分层,目的是提高数据的复用性。1.2 实时电商数仓,项目分为以下几层ODS :原始数据,日志和业务数据。 DWD:根据数据对象为单位进行分流,比如订单,页面访问等等。 DIM:维度.原创 2021-05-14 09:49:37 · 621 阅读 · 0 评论
分享