- 博客(16)
- 收藏
- 关注
原创 教育数仓项目
教育数仓项目文章目录教育数仓项目1. 项目简介2. 项目背景2.1 在线教育行业机遇2.2 行业发展的痛点2.3 大数据技术的应用3. 在线教育业务需求3.1 访问和咨询用户数据看板3.1.1 总访问客户量3.1.2 地区独立访客热力图3.1.3 访客咨询率趋势3.1.4 客户访问量和访客咨询率双轴趋势3.1.5 时间段访问客户量趋势3.1.6 来源渠道访问量占比3.1.7 搜索来源访问量占比3.1.8 活跃页面排行榜3.2 意向用户看板3.2.1 意向学员位置热力图3.2.2 总意向量3.2.3
2025-01-10 12:03:21
641
原创 教育数仓项目——五、访问咨询主题看板(3)_增量流程
要求: 此脚本能够实现自动获取上一天的日期数据, 并且还支持采集指定日期下数据。将shell脚本配置到ooize中, 从而实现自动化调度。将shell脚本放置到ooize中,完成自动化调度操作。最后,将shell脚本配置到oozie (省略)将shell脚本设置到oozie中(省略)思考4: 如何编写shell脚本呢?
2025-01-09 19:51:56
345
原创 教育数仓项目——五、访问咨询主题看板(3)_全量流程
需求三: 统计指定时间段内,不同地区(省、市)访问的客户中发起咨询的人数占比;需求六: 统计指定时间段内,不同来源渠道的访问客户量占比。需求七: 统计指定时间段内,不同搜索来源的访问客户量占比。咨询率=发起咨询的人数/访问客户量;占比: 各个搜索来源下 咨询量 / 各个搜索来源访问量。接下来: 将结果数据灌入到DWD层的表中。占比: 各个渠道访问量 / 总访问量。动态分区的优化点: 有序动态分区。原因是from_url字段长度不够。基于时间统计各个受访页面的访问量。基于时间,统计各个地区的咨询量。
2025-01-09 19:44:05
840
原创 教育数仓项目——五、访问咨询主题看板(2)
partition(year=‘2017’, month=‘05’, day, hour),year和month是静态分区字段,day和hour是动态分区字段,这里指将2017年5月份的数据插入分区表,对应底层的物理操作就是将2017年5月份的数据load到hdfs上对应2017年5月份下的所有day和hour目录中去。行存储的特点: 查询满足条件的一整行(所有列)数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。
2025-01-09 18:51:10
578
原创 教育数仓项目——三、数仓工具
Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH的各个版本号。它支持多种关系型数据库,比如mysql、oracle、postgresql等。
2025-01-09 16:44:17
830
原创 教育数仓项目——一、数据仓库
数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据仓库是决策支持系统(dss)的结构化数据环境,如下图,决策支持系统基于数据仓库进行联机分析处理 ( OLAP )。
2025-01-09 16:23:38
1484
原创 教育数仓项目——四、访问咨询主题看板(1)
首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理。但是经过需求调研,这里的访问数据,实际指的是访问的客户量,而不是客户访问量。
2025-01-08 16:57:44
1035
原创 教育数仓项目——二、项目介绍和需求管理
包含了需求分析、设计转换、研发、测试到上线部署维护的完整项目流程。完整的教育大数据业务逻辑,包括:访问、咨询、意向、线索、报名、考勤等各个阶段,大幅提升学员在教育行业中的竞争力。完备的数据仓库的分层与建模。海量数据场景下的性能优化。拉链表的具体应用、对变化的更新数据进行存储和分析。使用的版本控制工具。可视化部署与运维大数据环境。Cloudera Manager是用于管理CDH群集的B/S应用程序。
2025-01-07 17:27:39
720
原创 HDFS的快照管理及回收站功能实现
快照管理:可以帮助你定期备份数据并在需要时恢复到某个时刻的状态,创建、查看、恢复和删除快照都可以通过 HDFS 提供的命令完成。回收站管理:当文件被删除时,HDFS 会将其移入回收站,在回收站中可以找到文件并恢复,避免了误删除的风险。通过正确配置和使用快照和回收站功能,你可以更好地管理 HDFS 中的文件和数据。
2024-12-24 20:18:56
916
原创 Hadoop 的配置文件说明
Hadoop 的配置文件是整个集群管理的核心,它决定了 HDFS(Hadoop Distributed FileSystem)和 YARN(Yet Another Resource Negotiator)的行为及其如何与其他组件进行交互。常用的配置文件包括 core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 和 capacity-scheduler.xml 等。这些文件通常位于 $HADOOP_HOME/etc/hadoop/ 目录下。以下是
2024-12-19 15:03:21
1330
原创 在 Hadoop 集群中通过 ntpd(Network Time Protocol Daemon)实现集群时间同步
为了在 Hadoop 集群中通过 ntpd(Network Time Protocol Daemon)实现集群时间同步,并使 hd1 作为时间服务器,hd2 和 hd3 与 hd1 实现定时同步时间,按照以下详细步骤进行配置。hd2 和 hd3 从 hd1 同步时间:通过修改 ntp.conf 配置文件,使 hd2 和 hd3 从 hd1 同步时间。该命令将显示连接的时间服务器列表以及同步状态,确认 hd1 已经成功同步时间。hd1 作为时间服务器:通过 ntpd 服务,hd1 将提供时间同步服务。
2024-12-19 14:45:15
699
原创 在 Hadoop 集群中启用历史服务和日志管理
mapreduce.history.server.address: MapReduce 历史日志服务器的地址,通常设置为主节点的 IP 地址和端口号。mapreduce.jobhistory.done-dir: 存储已完成的 MapReduce 作业日志的 HDFS 目录路径。MapReduce 作业历史日志:配置 mapred-site.xml 来指定历史日志存储路径,并设置 HDFS 目录的权限。YARN 日志:配置 yarn-site.xml 来指定 YARN 日志的存储路径,并启用日志聚合功能。
2024-12-19 14:00:07
943
原创 Hadoop 2.7.1集群启动及关闭
格式化 NameNode(只需第一次启动时执行)。启动 HDFS:通过启动NameNode和DataNode。启动 YARN:通过启动和。检查集群状态:使用jps命令、Web UI 或查看集群状态。运行命令验证:通过创建目录、上传文件并列出文件,确保 HDFS 正常工作。停止 YARN 服务使用停止 HDFS。使用停止 YARN。使用jps确认所有进程已停止。
2024-12-19 12:44:25
1099
原创 centos7配置完全分布式hadoop2.7.1
在 CentOS 7 上配置一个完全分布式的 Hadoop 2.7.1 集群,设置hd1)为主节点,并在hd2)和hd3)设置从节点,以下是详细的安装和配置步骤。
2024-12-18 17:11:20
474
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人