睡不着的二进制-优快云博客

原创历史最全大数据开发面试攻略【吐血整理32w+字，260+页】

暑期实习、秋招一路走来，踩过不少坑，比如，刚开始在选择岗位时，明确大数据开发后，迷茫如何学习大数据的时候。太多的组件框架、太多的源码分析、太多的架构和知识点。离线、实时、数据治理、数据倾斜、小文件、内存管理等等，不知道如何下手。还有在找工作的时候，不知道如何做好充分的准备，不知道如何应对面试问答，如何发挥个人正常水平等等问题。接下来我主要介绍大数据开发的学习路线，以及八股文总结相关内容，总的来说就是作为一名数据RD必备的一些技术能力和所需的知识储备。

2025-01-11 20:49:27 1960 4

原创大数据开发入门这么简单？学好这些轻松应对面试！

基础的大数据组件原理和应用最好掌握，数仓知识点肯定要熟悉。若是面向互联网公司，一面大概是基础八股和简历内容，二面主要深挖项目或场景题或底层原理，一面二面都可能涉及数据治理，调优手法相关问题，另外sql和算法也要准备，不过挖底其实套路就那些也还好

2025-01-16 13:31:30 918 1

原创 Hive SQL必刷练习题：同一个会话划分问题

如何判断同一个用户，如果连续访问的时间间隔小于60s，就认为是同一个会话，或者说划分到同一个组。

2025-01-16 13:14:59 332

原创 Hive SQL必刷练习题：留存率问题（思路二）

首次登录算作当天新增，第二天也登录了算作一日留存。可以理解为，在10月1号登陆了。在10月2号也登陆了，那这个人就可以算是在1号留存

2025-01-15 18:14:39 299

原创 Hive SQL必刷练习题：留存率问题

首次登录算作当天新增，第二天也登录了算作一日留存。可以理解为，在10月1号登陆了。在10月2号也登陆了，那这个人就可以算是在1号留存

2025-01-15 18:12:53 554

原创 Hive SQL必刷练习题：日期交叉问题

问题描述每一行表示一个活动，活动包括起始和终止时间，相邻品牌的两个活动时间可能有重复交叉的情况，现在需求就是去计算每个品牌的总的打折/活动天数

2025-01-14 11:04:47 370

原创 Hive SQL必刷练习题：向用户推荐朋友收藏的商品

需要请向所有用户推荐其朋友收藏但是用户自己未收藏的商品，请从好友关系表（friendship_info）和收藏表（favor_info）中查询出应向哪位用户推荐哪些商品。期望结果如下：

2025-01-14 10:59:01 457

原创 Hive SQL必刷练习题：排列组合问题

排列组合问题【通过join不等式】

2025-01-13 11:52:50 277

原创 Hive SQL必刷练习题：复购率问题

近90天指包含最大日期(以订单详情表(order_detai)中最后的日期)在内的近90天。结果中复购率保留2位小数，并按复购率倒序、商品ID升序排序

2025-01-13 11:50:56 286

原创 Hive SQL必刷练习题：同时在线人数问题

现有各直播间的用户访问记录表(live_events)如下，表中每行数据表达的信息为，一个用户何时进入了一个直播间，又在何时离开了该直播间。

2025-01-12 16:26:40 195

原创 Hive SQL必刷练习题：连续问题 & 间断连续

1）连续问题：找出连续三天（或者连续几天的啥啥啥）2）间断连续：统计各用户连续登录最长天数，间断一天也算连续，比如1、3、4、6也算登陆了6天

2025-01-12 16:24:45 714

原创 python超详细知识点汇总整理

放进函数中去，应该在列表名字前面加上号，比如a(*list)形式参数名字：这次不是放在元组了，是放在字典里python在定义全局变量的时候，这个变量只要在函数外面定义的，就是全局变量，在函数体中也可以访问到当局部变量（函数体内定义的变量）和全局变量重名时候，对函数体的变量进行赋值后，不影响函数体的变量在函数体内变量用global关键字修饰后，该变量也变成了为全局变量。

2024-03-29 14:45:02 2243

原创最详细数据仓库项目实现：从0到1的电商数仓建设（数仓部分）

其中业务总线矩阵，就像是一个分析的笔记.后面还会有各个属性值和度量值的统计等// 见讲义中第四个讲义数仓的第5章。

2024-03-16 17:10:28 5946 4

原创最详细数据仓库项目实现：从0到1的电商数仓建设（采集部分）

行为数据（行为日志）业务数据（MySQL）这两类数据，都是通过模拟数据的程序生成，通过脚本文件执行lg.sh，模拟生成行为日志数据和业务数据。日志数据生成后直接写入/opt/module/applog/log目录下，而业务数据是在下载配置好MySQL后创建名为gmall的数据库，直接将业务数据通过jdbc远程连接，写入数据库中对应的表中。

2024-03-15 09:26:27 3700 1

原创 Git详细入门笔记

在之前的操作中，所有的操作都是基于一条主线完成的。但是我们无法保证每一次的修改和变更都是正确并有效的，往往有的时候需要追溯历史操作，而版本控制（Revision control）是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术。从上面的描述上看，就会显得非常繁琐，而且本质上并没有太重要的内容，仅仅是因为环境上的变化，就需要重新修改，所以如果将本地测试环境和服务器测试环境区分开，分别进行文件版本维护，是不是就会显得更合理一些。

2024-03-14 10:56:34 974 1

原创 Hive企业级调优

计算资源调优就是yarn资源的配置，和mapreduce的资源配置，分给多少内存，核数之类的一个sql语句翻译成几个mapreduce ，map和reduce分别干了什么，就是执行计划讲解的这个是通过在select语句最外面加上explain关键字，就会显示出来详细的执行计划而执行计划是由一系列的stage，就是一页一页的构成，每一个stage对应一个mapreduce job 或者一个文件操作系统，比如load之类的0- 补充一个可视化执行计划方法在hive文件夹中有一个压缩包名为dist，是可以

2024-03-13 09:28:18 1478

Mikkkee的博客

原创历史最全大数据开发面试攻略【吐血整理32w+字，260+页】

原创大数据开发入门这么简单？学好这些轻松应对面试！

原创 Hive SQL必刷练习题：同一个会话划分问题

原创 Hive SQL必刷练习题：留存率问题（思路二）

原创 Hive SQL必刷练习题：留存率问题

原创 Hive SQL必刷练习题：日期交叉问题

原创 Hive SQL必刷练习题：向用户推荐朋友收藏的商品

原创 Hive SQL必刷练习题：排列组合问题

原创 Hive SQL必刷练习题：复购率问题

原创 Hive SQL必刷练习题：同时在线人数问题

原创 Hive SQL必刷练习题：连续问题 & 间断连续

原创 python超详细知识点汇总整理

原创最详细数据仓库项目实现：从0到1的电商数仓建设（数仓部分）

原创最详细数据仓库项目实现：从0到1的电商数仓建设（采集部分）

原创 Git详细入门笔记

原创 Hive企业级调优

原创最详Hive入门指南

原创 Kafka总结文档

原创 Flume总结文档

原创 Zookeeper笔记

原创 Hadoop汇总

原创 JAVA学习笔记

原创 Linux笔记

原创 STL基础

原创 pytorch学习笔记

空空如也

空空如也