自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大数据之经典面试题(4)

多维建模维度:时间(年、季度、月)、地区(国家、省份)、产品(品类、SKU)。度量:销售额、订单量、用户数。所有可能的维度组合形成一个多维立方体(Cube),每个交叉点存储对应的聚合值。预计算预先计算所有维度组合的聚合结果(如 SUM、COUNT、AVG),避免查询时实时计算。例如,针对时间(年/月)、地区、产品的组合,提前计算每个组合的总销售额极速查询性能预计算聚合:查询时直接读取预计算结果,无需扫描原始数据或实时计算。适合复杂查询。

2025-04-04 22:03:32 594

原创 大数据核心组件之面试题

适合做一些非常灵活的、低级的数据操作,由于 RDD 不了解数据的内部结构,Spark 无法对其进行优化,在执行复杂查询时可能会产生较多的中间结果和数据传输,性能相对较低。资源调优:CPU优化,RDD设置分区数为初始分区的2-3倍,如Yarn申请的executor cores资源个数为10个,设置分区数为20-30为最优结果。当进行读取时,磁盘的读写头需要遍历所有列的数据,可能会增加磁盘头的寻址时间,尤其是在数据量很大的时候。导出到本地:首先在 HiveServer2 的节点上创建一个存储导出数据的目录。

2025-04-03 19:34:29 555

原创 大数据之经典面试题(3)

概念:它是一种用于分析用户行为流程的一个模型,就比如我们分析一个jd的下单流程,漏斗模型模拟了一个倒置的漏斗形态,用户从宽口进入,窄口出,用户进入jd页面,注册账户,浏览页面,停留时长,加入购物车,下单,支付成功,是否退货,交易完成。可以分析每一步的转化率,优化流程,提升交易成功率。梳理业务流程、分析商品的转化率、提交用户的体验和商品交易完成率、流失分析(某一层转换率过低)、营销策略优化。计算思路(重点):举例(下单漏斗模型分析)

2025-04-03 19:25:32 918

原创 大数据之经典面试题(2)

什么是拉链表以及常见的使用方式?

2025-04-03 11:07:44 767 1

原创 大数据之经典面试题(1)

大数据常见面试题

2025-03-20 11:53:58 668

原创 大数据之数据仓库(超详细版本1)

所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。第二范式(2NF)要求数据库表中的每个实例或行必须可以被唯一地区分,为实现区分通常需要为表加上一个列(当然还有组合列的情况),以存储各个实例的唯一标识,这个唯一标识列(组合列)被称为主关键字或主键、主码。在业务系统中,挑选我们要分析的业务过程,业务过程可以概括为一个个不可拆分的行为事件,例如电商交易中的下单,取消订单,付款,退单等,都是业务过程。

2025-03-20 10:29:52 893

原创 大数据技术之Flume(超详细版本)

时间拦截器 在header中加入key为Timestamp,value为当前时间。

2025-03-07 23:26:36 1090

原创 PPT与AI的合作

ppt中调用AI的api操作大全

2025-03-05 16:29:08 510 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除