
电商数仓
文章平均质量分 69
小刘 同学
这个作者很懒,什么都没留下…
展开
-
电商数仓6.0——业务数据
Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。#目标Kafka topic,可静态配置,例如:maxwell,也可动态配置,例如:%{database}_%{table}# 过滤gmall中的z_log表数据,该表是日志数据的备份,无须采集。原创 2024-09-06 10:48:54 · 352 阅读 · 0 评论 -
电商数仓6.0笔记——用户数据
读取文件的路径,指定了要监控的文件路径为/opt/module/applog/log/app.*,即监控该目录下所有以app开头的文件。#为了确保在Flume重启或发生故障后能够从上次停止的位置继续读取数据,而不是从头开始,从而提高数据的可靠性和传输的连续性。#指定的Kafka主题为topic_log,所有的事件都将被发送到这个主题中。#定义了Kafka集群的地址,Flume将使用这些地址连接到Kafka集群。#由Source生成的数据将被发送到名为c1的KafkaChannel中。原创 2024-09-06 10:22:53 · 413 阅读 · 0 评论 -
电商数仓——DataX同步全量数据(同步MySQL数据到HDFS案例)
解决该问题的方案有两个:一是修改DataX HDFS Writer的源码,增加自定义null值存储格式的逻辑,可参考。原创 2024-07-11 10:40:40 · 1669 阅读 · 0 评论 -
电商数仓——日志数据采集
离线数仓同步数据Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。选择KafkaSource、FileChannel、HDFSSink进行数据传输。原创 2024-07-10 11:29:03 · 734 阅读 · 0 评论 -
电商数仓——数据模拟
(1)创建applog目录(2)上传文件到/opt/module/applog目录gmall-remake-mock-2023-02-17.jar用于生成数据application.yml是配置文件。原创 2024-07-07 10:22:23 · 559 阅读 · 1 评论 -
电商数仓项目——创建用户
为了保证Hadoop集群的安全性和稳定性,建议创建一个专门的Hadoop用户,用于管理和运行Hadoop服务。通过将Hadoop服务与其他系统用户隔离,可以有效地降低潜在的安全风险,并提高系统的稳定性和可靠性。(1) 在/opt目录下创建module、software文件夹。(3)查看module、software文件夹的所有者和所属组。3、在/opt目录下创建文件夹,并修改所属主和所属组。chown 用户名:用户名 /opt/module。(2)修改文件夹的所有者和所属组均为新创建的用户。原创 2024-07-04 15:26:15 · 197 阅读 · 0 评论