- 博客(6)
- 收藏
- 关注
原创 数仓分层+Hue操作+Oozie+sqoop导数据操作
1.数仓分层 数仓分层的目的: 1)功能划分更明确 2)维护方便 宽泛的数仓分层一共有三层: ODS层:源数据层 作用:对接源数据,将数据源中的数据加载到HDFS中,形成一张张表,和原数据库中保持同样的颗粒度 主要用于存放事实表和少量的维度表。在数据导入到ODS层的过程中,可能会对数据进行清洗(但并不一定会做这个操作) 原因:1、如果数据源来源于数据库,这个时候数据本身就是结构化数据 2、如果数据来源于各种文件,如日志文件等,可能需要对数据进行清洗,将数据转化为结构化数据
2021-07-27 11:28:05
520
原创 教育结构说明+数据仓库概念+维度、指标概念
知行教育结构说明+数据仓库概念+维度、指标概念 1、项目背景 1、近年来,在线教育产业发展十分迅速。尤其是2018年以来,在线教育平台动作不断,除了洋葱数学、考虫、作业盒子、火花思维、VIPKID、阿卡索等平台纷纷融资外,诸多在线教育平台纷纷上市。新东方在线也在2019年3月成功上市。 在市场规模方面,在线教育很大程度上是随着移动互联网的浪潮发展起来的,在传统的PC时代,虽然出现了网络教育形式,但是真正的所谓在线教育仍然是在2011年左右开始爆发的,这也正是移动互联网发展和普及的时间点。 统计数据显示,20
2021-07-27 11:18:46
693
原创 数仓(千亿项目理解)
项目流程 1、原始数据在mysql存储 2、使用kettle将数据在mysql同步到数据仓库(hive),(同步分为第一次全量+每天的增量=拉链表(目标:既能够保存历史的数据,又不会有数据冗余)) 3、hive数仓内结构 Hive内部结构: ODS: 存储在数据源同步过来的数据 DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(拉宽:就是将业务上需要的字段,但是字段不在一个表中,使用拉宽(join)将这些字段合并到一个表中) ADS:存储最终计算后的结果 4、使用kylin对hive内的数.
2021-07-05 04:07:52
395
原创 大数据面试题总结
大数据为什么这么快 1、扩展性 传统的是纵向扩展(服务器数量不变,每个的配置越来越高) 大数据是横向扩展(每个的配置不变,但服务器数量越来越多) 2、分布式 传统的是集中式存储,集中式计算 大数据是分布式存储,分布式计算 3、可用性 传统的是单份数据(存储数据的磁盘少) 大数据是多份数据(存储数据的磁盘多) 4、模型 传统的是移动数据到程序端 大数据是移动程序到数据端(减少了大量的IO开销和网络开销,利用并行计算,并行存储) 大数据为什快 横向扩展 移动程序到数据端 多个数据副本 分布式存储(减小磁盘IO的
2021-07-05 03:43:35
1912
原创 用户画像_年龄段标签开发
年龄段标签开发 统计型标签 统计型标签是需要使用聚合函数计算后得到的标签,比如最近3个月的退单率,用户最常用的支付方式等等. 年龄段标签开发: 1、创建sparkSQL实例没用于读取hbase mysql数据 2、链接mysql数据库 url: String, table: String, properties: Properties 3、读取四级标签数据 使用## 切分再使用=切分 将map 转换成样HBaseMeta例类 var hbaseMeta: HBaseMeta = getHBaseMeta(
2021-07-05 03:10:08
648
原创 构建用户画像的详细流程
首先,数据从点击流日志、用户交易数据、用户信息数据中获取,经过简单清洗转换,保存到HDFS集群中,然后将这些清洗后的数据映射到Hive数据仓库,通过对Spark集成hive,让Spark集群获取hive表的元数据信息,利用SQL去分层计算操作hive表中的数据,根据模型表统计计算标签属性。分析得到应用层后,将应用层的数据映射到HBase数据库集群中,再通过Phoenix整合HBase,通过...
2019-05-19 19:34:01
3654
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人