
大数据教育数仓项目
文章平均质量分 74
教育企业真实案例
B站搜知行教育 可学习原视频,售后有保障: 凡购买本专栏的读者,可加我好友获取教育大数据资料
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
知行教育数仓模拟面试+技术面可能问到的问题
大纲项目介绍第一部分我想先来介绍为什么要做教育数仓这个项目第二部分我想先来介绍我们这个项目用到的模型可能问到的问题原创 2021-01-14 11:55:46 · 641 阅读 · 0 评论 -
大数据教育数仓之在线教育项目回顾
Hadoop:HDFS读写原理,YARN中程序运行流程、端口号、哪些进程、MapReduce运行过程。分桶表:减少了比较次数,实现数据分类,大数据拆分,构建Map Join。基本原因:这个ReduceTask的负载要比其他Task的负载要高。方案二:skewjoin:避免数据倾斜的Reduce Join过程。分区表:减少了MapReduce输入,避免不需要的过滤。默认分区:根据K2的Hash值取余reduce的个数。虚拟内存不足:调整虚拟内存的比例,默认为2.1。:掌握Hive的常见优化。原创 2023-07-26 15:16:30 · 800 阅读 · 0 评论 -
离线报表之五大看板主题需求分析(SQL版)
访问咨询主题,报名主题,用户意向主题,有效线索主题,学员出勤主题原创 2022-05-02 18:09:01 · 1848 阅读 · 14 评论 -
知行大数据分析平台需求说明
需求说明: 项目背景,技术框架,数据规模原创 2022-05-02 15:55:18 · 1114 阅读 · 0 评论 -
知行教育大数据分析平台之基于Spark架构
1 介绍一下你们的项目教育数仓解决的问题:首先,受互联网+概念影响,越来越多的教育平台机构涌现,在线教育发展火热。但是由于信息的共享利用不充分,导致企业多年积累了大量数据,而因为信息孤岛的问题,一直没有对这些数据进一步挖掘分析,因此也不能给企业的管理决策层提供有效的数据支撑。有鉴于此,我们做的这个教育大数据分析平台项目,将大数据技术应用于教育行业,用擅长分析的OLAP系统为企业经营提供数据支撑。具体的实现思路是,先建立企业的数据仓库,把分散的业务数据预处理,其次根据业务需求从海量的用户行为数据挖掘分原创 2022-05-03 16:40:42 · 1805 阅读 · 0 评论 -
知行教育大数据分析数仓项目_面试题精华版
1.简介一下当前这个项目能够介绍一下你写的项目:我们这个大数据项目主要是解决了教育行业的一些痛点。首先,受互联网+概念,疫情影响,在线教育,K12教育等发展火热,越来越多的平台机构涌现。但是由于信息的共享利用不充分,导致企业多年积累了大量数据,而因为信息孤岛的问题,一直没有对这些数据进一步挖掘分析,因此也不能给企业的管理决策层提供有效的数据支撑。有鉴于此,我们做的这个教育大数据分析平台项目,将大数据技术应用于教育行业,用擅长分析的OLAP系统为企业经营提供数据支撑。具体的实现思路是,先建立企业的数据原创 2021-01-20 09:13:54 · 4557 阅读 · 0 评论 -
最新数仓面试题_知行教育数仓项目
能否简介一下当前这个项目原创 2021-01-15 08:22:48 · 3344 阅读 · 5 评论 -
Hive的常见函数及出勤人数看板(五)
有的表,本质上是实时表,但是可能做维度的作用。比如看板4 的 itcast_clazz表,是学生的报名信息表。本质上是一个学生报名某个校区某个学科产生的事实时间,本质上是事实表的属性但是在看板4中,是维度的作用。对于这个表,放入DIMEN层,或者ODS层都可以。做增量的时候,对于任何有事实属性的表,都要考虑到它的增量采集问题,也就是原创 2021-07-04 21:26:03 · 591 阅读 · 2 评论 -
看板4回顾
看板4回顾在做分析的时候,所有的表都要考虑到增量的情况维度数据量少,直接覆盖即可数据量大,根据时间来抽取最新的即可有的表,本质上是实时表,但是可能做维度的作用。比如看板4 的 itcast_clazz表,是学生的报名信息表。本质上是一个学生报名某个校区某个学科产生的事实时间,本质上是事实表的属性但是在看板4中,是维度的作用。对于这个表,放入DIMEN层,或者ODS层都可以。做增量的时候,对于任何有事实属性的表,都要考虑到它的增量采集问题,也就是选择SCD的模式,比如选择原创 2021-07-04 21:25:01 · 421 阅读 · 0 评论 -
看板3需求分析
看板3需求分析需求一: 统计期内,访客咨询产生的有效线索的占比。有效线索量 / 咨询量,有效线索指的是拿到电话且电话有效。 指标:有效线索量 维度: 时间维度 : 年、月、天 线上线下 需求二: 统计期内,1-24h之间,每个时间段的有效线索转化率。横轴:1-24h,间隔为1h,纵轴:每个时间段的有效线索转化率。 指标:有效线索量 维度: 时间维度: 小时 线上线下 需求三: 统计期内,新增的咨询客户中,有效线索的数量。 指标: 有效线索量 维度:原创 2021-07-04 21:24:24 · 891 阅读 · 0 评论 -
意向客户看板(二)
看板2需求分析需求1:1.1 总意向量说明:计期内,新增意向客户(包含自己录入的意向客户)总数。展现:线状图条件:年、月、线上线下维度:年、月、线上线下指标:总意向客户量粒度:天,可以下钻到小时数据。数据来源:客户管理系统的customer_relationship意向表指标:意向数量维度:新老意向用户维度时间维度年、月、日、小时线上线下涉及到的信息表:customer_relationshop (客户意向)create_date_time:时间相关cu原创 2021-04-22 22:11:04 · 6334 阅读 · 0 评论 -
访问和咨询主题看板(一)
访问和咨询主题看板需求分析需求一:统计指定时间段内,访问客户的总数量。能够下钻到小时数据。指标:访问量维度:时间维度(小时、天、月、季度、年)需求二:地区独立访客热力图统计指定时间段内,访问客户中各区域人数热力图。能够下钻到小时数据。指标:访问量维度:- 时间维度(小时、天、月、季度、年)- 区域维度(省市区)需求三:访客咨询率趋势说明:统计指定时间段内,不同地区(省、市)访问的客户中发起咨询的人数占比;咨询率=发起咨询的人数/访问客户量;指标:访问量、咨询量维度:- 时间原创 2021-04-22 22:00:34 · 5221 阅读 · 0 评论 -
知行教育项目之Hive优化和一些其它的重要优化概念(三)
SMB join一个表的bucket数是另一个表bucket数的整数倍小表的bucket数**=**大表bucket数bucket列 == join列Bucket 列 == Join 列 ==sort列必须是应用在map join的场景中必须是应用在bucket mapjoin 的场景中# 开启自动执行MapJoin(达到条件,会自动走Map的Join而不是Reduce的Join) set hive . auto . convert . join = true;原创 2021-04-22 21:58:14 · 6341 阅读 · 2 评论 -
4.BI 探索数据的数据可视化工具
BI简介BI:Business Intelligence :商业智能BI就是一种分析、探索数据的数据可视化工具功能:对数据进行深入分析和探索在过程中将结果进行可视化展示BI工具,用的最多是是数据分析师的岗位的人。对于开发人员来说,数据分析探索的过程,我们通过数仓建模、代码分析等已经完成了,我们一般只使用可视化这个功能。市面上常见的BI软件PowerBI - 微软出品(收费)行业标杆,贵Tableau - 收费BI工具行业标杆,贵SuperSet - (开源、免费B原创 2021-04-22 21:25:41 · 6102 阅读 · 1 评论 -
3.git常用命令
一、新建代码库 # 在当前目录新建一个Git代码库git init# 新建一个目录,将其初始化为Git代码库git init [project-name]# 下载一个项目和它的整个代码历史git clone [url]二、配置Git的设置文件为.gitconfig,它可以在用户主目录下(全局配置),也可以在项目目录下(项目配置)。# 显示当前的Git配置git config --list# 编辑Git配置文件git config -e [--global]# 设置提交代码转载 2021-04-22 21:25:10 · 5744 阅读 · 0 评论 -
2.git
Git今日内容:git 的历史git 和 svn区别git的执行流程git的安装(Windows)git的操作git的私有服务器的安装(linux)git的分支操作git在idea中使用1. Git历史 同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。Linux 内核开源项目有着为数众广的参与者。绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。到 2002 年,整个项目组开始启用分布式版本控制系统 Bit原创 2021-04-22 21:24:37 · 5803 阅读 · 0 评论 -
数仓理论|精华整理
数据仓库理论学习目标理解OLTP和OLAP的区别理解数据仓库的特点理解数据仓库系统架构理解指标与维度理解下钻与上卷理解事实表与维度表理解星型模型和雪花模型理解缓慢渐变维掌握数据仓库的分层方法数据仓库介绍数据分析的问题做分析的时候,很多业务数据都会分散的存储到很多业务后台中。数据孤岛数据量巨大,需要一种能够存储海量数据,同时也能分析海量数据的工具工具还需要能够支持常用的SQL解决问题做数据的集中存储分布式存储+分布式计算原创 2021-04-22 21:23:39 · 5679 阅读 · 0 评论 -
0.项目简介
前置需求的技术HadoopHiveHueSqoopOozie项目简介项目叫做:知行教育大数据分析平台(数仓开发项目)目的:对海量的业务数据进行指标分析。结果:对分析的结果做可视化的展示项目的痛点数据量比较大,传统的业务数据库比如MySQL难以支撑,我们需要:分布式的、支持SQL的一种数据库(Hive)数据分散,需要将数据集中存储数据设计是针对业务设计的,分析比较困难,我们需要将它转换为分析比较好用的格式项目的数据流转在线教育的业务名词解释意向用户:对公司的业务抱原创 2021-04-22 21:18:17 · 5392 阅读 · 0 评论 -
知行教育_访问咨询主题-增量采集
文章目录访问咨询主题-增量采集业务数据库 - > ODS的流程配置ODS -> DWD的流程DWD -> DWS 流程问题:分析针对增量数据的不同做法以及优缺点过期数据的删除DWS -> MySQL访问咨询主题-增量采集注意点:业务系统中,数据表的后缀是 年_月 ,这就表明随着时间推移,被采集的表的后缀是动态变化的。我们的脚本也要做到这一点这个功能要做成自动化的脚本,脚本能够每天定时执行增量采集,一天执行一次当天采集昨日数据业务数据库 - > ODS的流程原创 2020-12-28 18:01:29 · 472 阅读 · 0 评论 -
访问咨询主题-增量采集(Oozie的使用)
注意点:业务系统中,数据表的后缀是年_月,这就表明随着时间推移,被采集的表的后缀是动态变化的。我们的脚本也要做到这一点这个功能要做成自动化的脚本,脚本能够每天定时执行增量采集,一天执行一次当天采集昨日数据。原创 2021-01-21 16:18:50 · 753 阅读 · 0 评论 -
大数据数仓项目--知行教育_访问咨询主题_全量流程
文章目录4.6 全量流程4.6.1 数据采集4.6.3 统计分析4.6.3.2.2 搜索来源分组4.6.3.2.3 来源渠道分组4.6.3.2.4 会话来源页面分组4.6.3.2.5 总访问量4.6.4 导出数据4.6 全量流程OLTP原始数据(mysql)——》数据采集(ODS)——》清洗转换(DWD)——》统计分析(DWS)——》导出至OLAP(Mysql),如图:4.6.1 数据采集4.6.1.1 web_chat_ems表4.6.1.1.1 SQL:select id,原创 2020-12-25 16:17:27 · 985 阅读 · 0 评论 -
知行教育项目之Hive参数优化(一)
例如,table总bucket数为6,tablesample(bucket 1 out of 2),表示总共抽取(6/2=)3个bucket的数据,从第1个bucket开始,抽取第1(x)个和第3(x+y)个和第5(x+y)个bucket的数据。mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低,如果使用mapjoin操作,在map的过程中就完成了不等值的join操作,效率会高很多。原创 2020-12-29 14:50:24 · 752 阅读 · 0 评论 -
知行教育项目之hive优化(二)
Hive在各方面优化的东西乱七八糟一堆。我们这个数仓项目,70%时间都在Hive上,30%的时间在业务分析,建模分析上。很痛苦,我们只想专心做业务分析,不想搞乱七八糟的这优化那优化的。后面学习Spark和Flink的时候就能体会到专心做业务的快感了。原创 2021-01-13 22:05:34 · 803 阅读 · 0 评论 -
数仓项目拉链表详解
拉链表就是之前我们讲过的SCD2,它的优点是即满足了反应数据的历史状态,又能在最大程度上节省存储。原创 2021-01-04 21:11:16 · 1255 阅读 · 0 评论 -
有效线索主题看板
有效线索主题看板:报名用户主题看板,该看板有三个需求。我们先来进行维度和指标的分析,维度包括年月日时,线上线下和新老客户,指标只有有效线索量。第一个需求是有效线索转化率。公式:有效线索量/咨询量。分母咨询量已经统计过,在这里可以直接使用。分子数据颗粒需要具体到天,所以统计维度也要增加天。有效线索转化率时间段趋势,则需要统计到小时。有效线索量需要增加一个新老客户维度。接下来是建模分析:首先在ODS层原始数据包括有有效线索表和意向客户表。其次是DWD层由于有效线索数据中的同样的数据只能录入一次,不存在去原创 2021-01-08 14:33:47 · 1448 阅读 · 0 评论 -
报名用户需求分析
看板4需求分析模板前言和前面的看板分析的方法一致。讲义给出的叫做:需求文档如图,我们要做的是:根据需求的要求,整理出指标和维度BI看板展示:需求分析2.1 校区报名柱状图说明:统计期内,全部报名客户中,各校区报名人数分布。展现:柱状图条件:年、月,校区维度:天区间,按查询条件来定指标:报名人数粒度:天/线上线下/校区数据来源:客户管理系统的customer_relationship、itcast_clazz报名课程表SQL:1.SELECT2. count( 1原创 2021-01-08 14:15:48 · 1137 阅读 · 0 评论 -
知行教育项目介绍
项目一:创维互联新能源大数据平台项目名称:新能云平台软件架构:kafka+strom+redis+hbase+hive+cdh+sqoop开发环境:eclipse + jdk1.7 + mysql + maven+ svn项目描述:随着国家对新能源行业的重视和发展,利用大数据技术,以软件免费共享的模式,实现电站发电设备状态可控在控、故障处理准确及时、人员操作安全规范、统计分析深入全面、运行维护智能高效、经营效益不断提高。责任描述:原创 2020-12-28 19:41:32 · 14555 阅读 · 1 评论 -
SCD的三层
5.5.2 SCD1(缓慢渐变类型1)通过更新维度记录直接覆盖已存在的值。不维护记录的历史。一般用于修改错误的数据,即历史数据就是错误数据,除此没有他用。在数据仓库中,我们可以保持业务数据和数据仓库中的数据始终处于一致。可以在 Customer 维度中使用来自业务数据库中的 Business Key - CustomerID 来追踪业务数据的变化,一旦发生变化那么就将旧的业务数据覆盖重写。DW 中的记录根据业务数据库中的 CustomerID 获取了最新的 City 信息,直接更新到 DW 中。5原创 2021-01-04 09:48:02 · 873 阅读 · 0 评论 -
雪花模型 --模型的选择
原创 2021-01-10 16:53:58 · 1056 阅读 · 0 评论 -
知行教育项目_mysql升级版本
方法千万条,备份第一条!运行:service mysqld start 重启数据库总是会出现如下提示:MySQL Daemon failed to start.Starting mysqld: [FAILED]的提示。如果直接输入 mysql -root -p登陆会出现[mysql]ERROR 2002 (HY000): Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (2)的错误提示。总之原创 2020-12-30 10:35:53 · 434 阅读 · 0 评论