自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 拉链表的采集流程及hive的相关优化

常开项:是否开启并行执行最大允许并行执行的数量矢量化查询读取零拷贝关联优化器针对性开启:开启 group by combiner数据倾斜方案开启groupby 负载均衡优化join的编译期优化是否开启运行期倾斜解决join当key出现多少个的时候, 认为有倾斜union all优化。

2025-03-31 00:16:01 511

原创 从 0 到 1 实战 Boss 直聘爬虫:解锁春招数据背后的秘密

本项目通过 Python 爬虫技术抓取 5000 + 岗位数据,结合数据分析与可视化技术,深度解析区域人才分布、技术栈需求、学历薪资关系等核心维度,为企业招聘策略制定与求职者职业规划提供数据支撑。3.1、将公司规模标准化,提取岗位信息的技术栈、将岗位信息中的“小白”数据行值清除,拆分薪资列,新增行政区列、填充空值。1.3、第三个方法:将数据插入数据库,添加一些try-expect增强代码健壮性。1.2、第二个方法:创建数据库,连接数据库,创建表,添加字段。1.6、第六个方法:关闭浏览器,关闭数据库。

2025-03-27 22:05:42 2549

原创 教育行业数据仓库项目实战

一、项目简介。

2025-03-22 13:54:54 1825

原创 数仓一些基本概念的分享

避免重复抽取大量未变化的数据减少数据量的处理和资源消耗,提高数据抽取和集成效率,实现方式:时间戳,基于日志,基于标志位,数据仓库更新,实现数据同步,数据迁移和整合。将作为维度表中的属性直接放在事实表中作为普通列来处理,提高查询性能,简化数据模型。适合维度表中变化少,且事实表常用的情况。Kafka(日志)、Sqoop(MySQL同步)维度表进一步规范化(减少冗余),但关联复杂度高。单事实表+多维度表,无规范化维度表,查询高效。面向业务场景的高度汇总(如报表、API接口)多事实表共享维度表,支持复杂分析。

2025-03-13 20:34:00 1637 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除