大数据项目之电商数仓(用户行为采集平台)

本文详细介绍了电商大数据项目中,数据仓库的构建,特别是用户行为数据采集平台的设计。从需求分析、架构设计、日志内容、格式到服务器和JDK的准备,以及日志采集Flume的配置和测试,提供了全面的实施步骤。重点讨论了日志内容的多样性,包括页面浏览、动作、曝光、启动和错误记录,以及如何利用Flume进行数据采集和校验,确保数据质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据项目之电商数仓(用户行为采集平台)

 

版本:V5.0

 

第1章 数据仓库概念

数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。

数据仓库的输入数据通常包括:业务数据用户行为数据爬虫数据

业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据业务数据通常存储在MySQL、Oracle等数据库中。

用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。

爬虫数据:通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。

第2章 项目需求架构设计

2.1 项目需求分析

1)采集平台

(1)用户行为数据采集平台搭建

(2)业务数据采集平台搭建

2)离线需求

3)实时需求

4)思考题

  • 1、项目技术如何选型?
  • 2、框架版本如何选型(Apache、CDH、HDP)
  • 3、服务器使用物理机还是云主机?
  • 4、如何确认集群规模?(假设每台服务器8T硬盘)

2.2 项目框架

2.2.1 技术选型

2.2.2 系统数据流程设计

2.2.3 框架版本选型

      1. 服务器选型

2.2.5 集群规模

2.2.6 集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。

1)生产集群

(1)消耗内存的分开

(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper)

(3)客户端尽量放在一到两台服务器上,方便外部访问

(4)有依赖关系的尽量放到同一台服务器(例如:Hive和mysql)

Master

Master

core

core

core

common

common

common

nn

nn

dn

dn

dn

JournalNode

JournalNode

JournalNode

rm

rm

nm

nm

nm

 

 

 

 

 

 

 

 

zk

zk

zk

hive

hive

hive

hive

hive

 

 

 

 

 

kafka

kafka

kafka

 

 

 

spark

spark

spark

spark

spark

 

 

 

datax

datax

datax

datax

datax

 

 

 

Ds-master

Ds-master

Ds-worker

Ds-worker

Ds-worker

 

 

 

maxwell

 

 

 

 

 

 

 

supset

 

 

 

 

 

 

 

mysql

 

 

 

 

 

 

 

flume

flume

 

 

 

 

 

 

flink

flink

 

 

 

 

 

 

 

 

clickhouse

 

 

 

 

 

 

 

 

redis

 

 

 

 

hbase

 

 

 

 

 

 

 

 

2)测试集群服务器规划

服务名称

服务<

本教程为授权出品 一、课程简介数据库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容《大数据商数项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。 三、课程目标本课程以国内商巨头实际业务应用场景为依托,对商数的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数项目可以建立起清晰明确的概念,系统全面的掌握各项数项目技术,轻松应对各种数难题。 四、课程亮点本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值