2301_79748596-优快云博客

原创教育数仓项目

教育数仓项目文章目录教育数仓项目1. 项目简介2. 项目背景2.1 在线教育行业机遇2.2 行业发展的痛点2.3 大数据技术的应用3. 在线教育业务需求3.1 访问和咨询用户数据看板3.1.1 总访问客户量3.1.2 地区独立访客热力图3.1.3 访客咨询率趋势3.1.4 客户访问量和访客咨询率双轴趋势3.1.5 时间段访问客户量趋势3.1.6 来源渠道访问量占比3.1.7 搜索来源访问量占比3.1.8 活跃页面排行榜3.2 意向用户看板3.2.1 意向学员位置热力图3.2.2 总意向量3.2.3

2025-01-10 12:03:21 641

原创教育数仓项目——五、访问咨询主题看板（3）_增量流程

要求: 此脚本能够实现自动获取上一天的日期数据, 并且还支持采集指定日期下数据。将shell脚本配置到ooize中, 从而实现自动化调度。将shell脚本放置到ooize中,完成自动化调度操作。最后,将shell脚本配置到oozie (省略)将shell脚本设置到oozie中(省略)思考4: 如何编写shell脚本呢?

2025-01-09 19:51:56 345

原创教育数仓项目——五、访问咨询主题看板（3）_全量流程

需求三: 统计指定时间段内，不同地区（省、市）访问的客户中发起咨询的人数占比；需求六: 统计指定时间段内，不同来源渠道的访问客户量占比。需求七: 统计指定时间段内，不同搜索来源的访问客户量占比。咨询率=发起咨询的人数/访问客户量；占比: 各个搜索来源下咨询量 / 各个搜索来源访问量。接下来: 将结果数据灌入到DWD层的表中。占比: 各个渠道访问量 / 总访问量。动态分区的优化点: 有序动态分区。原因是from_url字段长度不够。基于时间统计各个受访页面的访问量。基于时间,统计各个地区的咨询量。

2025-01-09 19:44:05 840

原创教育数仓项目——五、访问咨询主题看板（2）

partition(year=‘2017’, month=‘05’, day, hour)，year和month是静态分区字段，day和hour是动态分区字段，这里指将2017年5月份的数据插入分区表，对应底层的物理操作就是将2017年5月份的数据load到hdfs上对应2017年5月份下的所有day和hour目录中去。行存储的特点：查询满足条件的一整行（所有列）数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

2025-01-09 18:51:10 578

原创教育数仓项目——三、数仓工具

Sqoop是Apache下的顶级项目，用来将Hadoop和关系型数据库中的数据相互转移，可以将一个关系型数据库（例如：MySQL，Oracle，PostgreSQL等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛，且发展前景比较乐观。专门为Hadoop而生，随Hadoop版本更新支持程度好，且原本即是从CDH版本孵化出来的开源项目，支持CDH的各个版本号。它支持多种关系型数据库，比如mysql、oracle、postgresql等。

2025-01-09 16:44:17 830

原创教育数仓项目——一、数据仓库

数据仓库概念创始人在《建立数据仓库》一书中对数据仓库的定义是：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、数据集成的（Integrated）、相对稳定(非易失)的（Non-Volatile）、反映历史变化(时变)（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。数据仓库是决策支持系统（dss）的结构化数据环境，如下图，决策支持系统基于数据仓库进行联机分析处理 ( OLAP )。

2025-01-09 16:23:38 1484

原创教育数仓项目——四、访问咨询主题看板（1）

首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理。但是经过需求调研，这里的访问数据，实际指的是访问的客户量，而不是客户访问量。

2025-01-08 16:57:44 1035

原创教育数仓项目——二、项目介绍和需求管理

包含了需求分析、设计转换、研发、测试到上线部署维护的完整项目流程。完整的教育大数据业务逻辑，包括：访问、咨询、意向、线索、报名、考勤等各个阶段，大幅提升学员在教育行业中的竞争力。完备的数据仓库的分层与建模。海量数据场景下的性能优化。拉链表的具体应用、对变化的更新数据进行存储和分析。使用的版本控制工具。可视化部署与运维大数据环境。Cloudera Manager是用于管理CDH群集的B/S应用程序。

2025-01-07 17:27:39 720

原创 HDFS的快照管理及回收站功能实现

快照管理：可以帮助你定期备份数据并在需要时恢复到某个时刻的状态，创建、查看、恢复和删除快照都可以通过 HDFS 提供的命令完成。回收站管理：当文件被删除时，HDFS 会将其移入回收站，在回收站中可以找到文件并恢复，避免了误删除的风险。通过正确配置和使用快照和回收站功能，你可以更好地管理 HDFS 中的文件和数据。

2024-12-24 20:18:56 916

原创 hadoop3.1.3客户端环境配置及API实操

注意：Hadoop 需要完全式集群配置完成。

2024-12-24 14:50:37 831

原创 HDFS的Shell操作

HDFS的Shell操作。

2024-12-19 16:39:43 269

原创 Hadoop 的配置文件说明

Hadoop 的配置文件是整个集群管理的核心，它决定了 HDFS（Hadoop Distributed FileSystem）和 YARN（Yet Another Resource Negotiator）的行为及其如何与其他组件进行交互。常用的配置文件包括 core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 和 capacity-scheduler.xml 等。这些文件通常位于 $HADOOP_HOME/etc/hadoop/ 目录下。以下是

2024-12-19 15:03:21 1330

原创在 Hadoop 集群中通过 ntpd（Network Time Protocol Daemon）实现集群时间同步

为了在 Hadoop 集群中通过 ntpd（Network Time Protocol Daemon）实现集群时间同步，并使 hd1 作为时间服务器，hd2 和 hd3 与 hd1 实现定时同步时间，按照以下详细步骤进行配置。hd2 和 hd3 从 hd1 同步时间：通过修改 ntp.conf 配置文件，使 hd2 和 hd3 从 hd1 同步时间。该命令将显示连接的时间服务器列表以及同步状态，确认 hd1 已经成功同步时间。hd1 作为时间服务器：通过 ntpd 服务，hd1 将提供时间同步服务。

2024-12-19 14:45:15 699

原创在 Hadoop 集群中启用历史服务和日志管理

mapreduce.history.server.address: MapReduce 历史日志服务器的地址，通常设置为主节点的 IP 地址和端口号。mapreduce.jobhistory.done-dir: 存储已完成的 MapReduce 作业日志的 HDFS 目录路径。MapReduce 作业历史日志：配置 mapred-site.xml 来指定历史日志存储路径，并设置 HDFS 目录的权限。YARN 日志：配置 yarn-site.xml 来指定 YARN 日志的存储路径，并启用日志聚合功能。

2024-12-19 14:00:07 943

原创 Hadoop 2.7.1集群启动及关闭

格式化 NameNode（只需第一次启动时执行）。启动 HDFS：通过启动NameNode和DataNode。启动 YARN：通过启动和。检查集群状态：使用jps命令、Web UI 或查看集群状态。运行命令验证：通过创建目录、上传文件并列出文件，确保 HDFS 正常工作。停止 YARN 服务使用停止 HDFS。使用停止 YARN。使用jps确认所有进程已停止。

2024-12-19 12:44:25 1099

原创 centos7配置完全分布式hadoop2.7.1

在 CentOS 7 上配置一个完全分布式的 Hadoop 2.7.1 集群，设置hd1）为主节点，并在hd2）和hd3）设置从节点，以下是详细的安装和配置步骤。

2024-12-18 17:11:20 474

2301_79748596的博客