- 博客(4)
- 收藏
- 关注
原创 拉链表的采集流程及hive的相关优化
常开项:是否开启并行执行最大允许并行执行的数量矢量化查询读取零拷贝关联优化器针对性开启:开启 group by combiner数据倾斜方案开启groupby 负载均衡优化join的编译期优化是否开启运行期倾斜解决join当key出现多少个的时候, 认为有倾斜union all优化。
2025-03-31 00:16:01
511
原创 从 0 到 1 实战 Boss 直聘爬虫:解锁春招数据背后的秘密
本项目通过 Python 爬虫技术抓取 5000 + 岗位数据,结合数据分析与可视化技术,深度解析区域人才分布、技术栈需求、学历薪资关系等核心维度,为企业招聘策略制定与求职者职业规划提供数据支撑。3.1、将公司规模标准化,提取岗位信息的技术栈、将岗位信息中的“小白”数据行值清除,拆分薪资列,新增行政区列、填充空值。1.3、第三个方法:将数据插入数据库,添加一些try-expect增强代码健壮性。1.2、第二个方法:创建数据库,连接数据库,创建表,添加字段。1.6、第六个方法:关闭浏览器,关闭数据库。
2025-03-27 22:05:42
2549
原创 数仓一些基本概念的分享
避免重复抽取大量未变化的数据减少数据量的处理和资源消耗,提高数据抽取和集成效率,实现方式:时间戳,基于日志,基于标志位,数据仓库更新,实现数据同步,数据迁移和整合。将作为维度表中的属性直接放在事实表中作为普通列来处理,提高查询性能,简化数据模型。适合维度表中变化少,且事实表常用的情况。Kafka(日志)、Sqoop(MySQL同步)维度表进一步规范化(减少冗余),但关联复杂度高。单事实表+多维度表,无规范化维度表,查询高效。面向业务场景的高度汇总(如报表、API接口)多事实表共享维度表,支持复杂分析。
2025-03-13 20:34:00
1637
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅