- 博客(8)
- 收藏
- 关注
原创 大数据之经典面试题(4)
多维建模维度:时间(年、季度、月)、地区(国家、省份)、产品(品类、SKU)。度量:销售额、订单量、用户数。所有可能的维度组合形成一个多维立方体(Cube),每个交叉点存储对应的聚合值。预计算预先计算所有维度组合的聚合结果(如 SUM、COUNT、AVG),避免查询时实时计算。例如,针对时间(年/月)、地区、产品的组合,提前计算每个组合的总销售额极速查询性能预计算聚合:查询时直接读取预计算结果,无需扫描原始数据或实时计算。适合复杂查询。
2025-04-04 22:03:32
594
原创 大数据核心组件之面试题
适合做一些非常灵活的、低级的数据操作,由于 RDD 不了解数据的内部结构,Spark 无法对其进行优化,在执行复杂查询时可能会产生较多的中间结果和数据传输,性能相对较低。资源调优:CPU优化,RDD设置分区数为初始分区的2-3倍,如Yarn申请的executor cores资源个数为10个,设置分区数为20-30为最优结果。当进行读取时,磁盘的读写头需要遍历所有列的数据,可能会增加磁盘头的寻址时间,尤其是在数据量很大的时候。导出到本地:首先在 HiveServer2 的节点上创建一个存储导出数据的目录。
2025-04-03 19:34:29
555
原创 大数据之经典面试题(3)
概念:它是一种用于分析用户行为流程的一个模型,就比如我们分析一个jd的下单流程,漏斗模型模拟了一个倒置的漏斗形态,用户从宽口进入,窄口出,用户进入jd页面,注册账户,浏览页面,停留时长,加入购物车,下单,支付成功,是否退货,交易完成。可以分析每一步的转化率,优化流程,提升交易成功率。梳理业务流程、分析商品的转化率、提交用户的体验和商品交易完成率、流失分析(某一层转换率过低)、营销策略优化。计算思路(重点):举例(下单漏斗模型分析)
2025-04-03 19:25:32
918
原创 大数据之数据仓库(超详细版本1)
所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。第二范式(2NF)要求数据库表中的每个实例或行必须可以被唯一地区分,为实现区分通常需要为表加上一个列(当然还有组合列的情况),以存储各个实例的唯一标识,这个唯一标识列(组合列)被称为主关键字或主键、主码。在业务系统中,挑选我们要分析的业务过程,业务过程可以概括为一个个不可拆分的行为事件,例如电商交易中的下单,取消订单,付款,退单等,都是业务过程。
2025-03-20 10:29:52
893
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人