自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 历史最全大数据开发面试攻略【吐血整理32w+字,260+页】

暑期实习、秋招一路走来,踩过不少坑,比如,刚开始在选择岗位时,明确大数据开发后,迷茫如何学习大数据的时候。太多的组件框架、太多的源码分析、太多的架构和知识点。离线、实时、数据治理、数据倾斜、小文件、内存管理等等,不知道如何下手。还有在找工作的时候,不知道如何做好充分的准备,不知道如何应对面试问答,如何发挥个人正常水平等等问题。接下来我主要介绍大数据开发的学习路线,以及八股文总结相关内容,总的来说就是作为一名数据RD必备的一些技术能力和所需的知识储备。

2025-01-11 20:49:27 1960 4

原创 大数据开发入门这么简单?学好这些轻松应对面试!

基础的大数据组件原理和应用最好掌握,数仓知识点肯定要熟悉。若是面向互联网公司,一面大概是基础八股和简历内容,二面主要深挖项目或场景题或底层原理,一面二面都可能涉及数据治理,调优手法相关问题,另外sql和算法也要准备,不过挖底其实套路就那些也还好

2025-01-16 13:31:30 918 1

原创 Hive SQL必刷练习题:同一个会话划分问题

​如何判断同一个用户,如果连续访问的时间间隔小于60s,就认为是同一个会话,或者说划分到同一个组。

2025-01-16 13:14:59 332

原创 Hive SQL必刷练习题:留存率问题(思路二)

首次登录算作当天新增,第二天也登录了算作一日留存。可以理解为,在10月1号登陆了。在10月2号也登陆了,那这个人就可以算是在1号留存

2025-01-15 18:14:39 299

原创 Hive SQL必刷练习题:留存率问题

首次登录算作当天新增,第二天也登录了算作一日留存。可以理解为,在10月1号登陆了。在10月2号也登陆了,那这个人就可以算是在1号留存

2025-01-15 18:12:53 554

原创 Hive SQL必刷练习题:日期交叉问题

问题描述每一行表示一个活动,活动包括起始和终止时间,相邻品牌的两个活动时间可能有重复交叉的情况,现在需求就是去计算每个品牌的总的打折/活动天数

2025-01-14 11:04:47 370

原创 Hive SQL必刷练习题:向用户推荐朋友收藏的商品

需要请向所有用户推荐其朋友收藏但是用户自己未收藏的商品,请从好友关系表(friendship_info)和收藏表(favor_info)中查询出应向哪位用户推荐哪些商品。期望结果如下:

2025-01-14 10:59:01 457

原创 Hive SQL必刷练习题:排列组合问题

排列组合问题【通过join不等式】

2025-01-13 11:52:50 277

原创 Hive SQL必刷练习题:复购率问题

近90天指包含最大日期(以订单详情表(order_detai)中最后的日期)在内的近90天。结果中复购率保留2位小数,并按复购率倒序、商品ID升序排序

2025-01-13 11:50:56 286

原创 Hive SQL必刷练习题:同时在线人数问题

现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。

2025-01-12 16:26:40 195

原创 Hive SQL必刷练习题:连续问题 & 间断连续

1) 连续问题:找出连续三天(或者连续几天的啥啥啥)2) 间断连续:统计各用户连续登录最长天数,间断一天也算连续,比如1、3、4、6也算登陆了6天

2025-01-12 16:24:45 714

原创 python超详细知识点汇总整理

放进函数中去,应该在列表名字前面加上号,比如a(*list)形式参数名字:这次不是放在元组了,是放在字典里python在定义全局变量的时候,这个变量只要在函数外面定义的,就是全局变量,在函数体中也可以访问到当局部变量(函数体内定义的变量)和全局变量重名时候,对函数体的变量进行赋值后,不影响函数体的变量在函数体内变量用global关键字修饰后,该变量也变成了为全局变量。

2024-03-29 14:45:02 2243

原创 最详细数据仓库项目实现:从0到1的电商数仓建设(数仓部分)

其中业务总线矩阵,就像是一个分析的笔记.后面还会有各个属性值和度量值的统计等// 见讲义中第四个讲义数仓的第5章。

2024-03-16 17:10:28 5946 4

原创 最详细数据仓库项目实现:从0到1的电商数仓建设(采集部分)

行为数据(行为日志)业务数据(MySQL)这两类数据,都是通过模拟数据的程序生成,通过脚本文件执行lg.sh,模拟生成行为日志数据和业务数据。日志数据生成后直接写入/opt/module/applog/log目录下,而业务数据是在下载配置好MySQL后创建名为gmall的数据库,直接将业务数据通过jdbc远程连接,写入数据库中对应的表中。

2024-03-15 09:26:27 3700 1

原创 Git详细入门笔记

在之前的操作中,所有的操作都是基于一条主线完成的。但是我们无法保证每一次的修改和变更都是正确并有效的,往往有的时候需要追溯历史操作,而版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。从上面的描述上看,就会显得非常繁琐,而且本质上并没有太重要的内容,仅仅是因为环境上的变化,就需要重新修改,所以如果将本地测试环境和服务器测试环境区分开,分别进行文件版本维护,是不是就会显得更合理一些。

2024-03-14 10:56:34 974 1

原创 Hive企业级调优

计算资源调优就是yarn资源的配置,和mapreduce的资源配置,分给多少内存,核数之类的一个sql语句翻译成几个mapreduce ,map和reduce分别干了什么,就是执行计划讲解的这个是通过在select语句最外面加上explain关键字,就会显示出来详细的执行计划而执行计划是由一系列的stage,就是一页一页的构成,每一个stage对应一个mapreduce job 或者一个文件操作系统,比如load之类的0- 补充一个可视化执行计划方法在hive文件夹中有一个压缩包名为dist,是可以

2024-03-13 09:28:18 1478

原创 最详Hive入门指南

基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射 为⼀张表,并提供类SQL查询功能。本质就是一个hadoop的客户端,将HIve SQL转化成MapReduce程序如果不指定地址,那么就是默认地址下的自己构建的表名字,在此默认路径下创建了这么一个表的目录然后我们只要和表中对应数据格式一样的数据传到hdfs下的表目录下,就可以将数据存储到表中了。

2024-03-12 09:47:13 1723 1

原创 Kafka总结文档

/主要见讲义第21-23页1、定义类实现 Partitioner 接口。2、重写 partition()方法。代码中实际完成的就是重写partition方法中的几个步骤:获取消息,将参数的value值变成tostring然后根据需求,去分析value,然后返回不同情况返回不同的partition值最后将这个类的全类名,放在生产者的代码中,添加一个参数// 添加自定义分区器。

2024-03-11 13:17:35 1578 2

原创 Flume总结文档

自定义拦截器,在工作中会用到的比较多,比自定义source和自定义sink用的要多因为基本数据的类型已经定义的比较全面了主要是根据业务逻辑对数据进行处理,就是拦截器Interceptor的作用了// 主要是在讲义的第26-30页多路复用Multiplexing会用到拦截器,就是在channel选择器中告诉这个机器哪些数据应该发往哪些channel其实就是对event的头信息和body信息进行修改和处理其实主要涉及四个方法和最后的builder构建。

2024-03-10 09:28:20 1096 1

原创 Zookeeper笔记

/ 主要见讲义的前4页 主要是:统一命名服务、统一配置管理、统一集群管理、服务器动态上下线、软负载均衡。

2024-03-09 15:28:09 1096 1

原创 Hadoop汇总

(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。// 1. 创建配置文件// 2. 判断是否有tool接口//这里是判断集群中的命令行第一个参数是什么,如果是yarn命令, //就执行上面定义的方法break;

2024-03-08 11:11:48 1285 1

原创 JAVA学习笔记

java是混合型:编译+解释型,先java文件编译成class文件,而且不是直接运行在操作系统里面,而是运行在虚拟机里面的,只要针对不同的操作系统给出不同的虚拟机(jvm)就行jvm虚拟机核心类库开发工具:javac编译工具,Java运行工具,jdb调试工具,jhat内存分析工具…jvm虚拟机核心类库运行工具:这里是运行不是开发,jdk是开发的,就是已经有class,直接运行就行,不需要编写代码的时候匿名内部类:是内部类的简化写法。他是一个隐含了名字的内部类。

2024-03-07 09:29:32 1052 1

原创 Linux笔记

也有简单一些的方法,就是借助工具​ 通常在工作过程中,公司中使用的真实服务器或者是云服务器,都不允许除运维人员之外的员工直接接触,因此就需要通过远程登录的方式来操作。所以,远程登录工具就是必不可缺的,目前,比较主流的有 Xshell, SSH Secure Shell, SecureCRT,FinalShell 等,同学们可以根据自己的习惯自行选择.然后配置里面的用户身份,就是虚拟机的用户名和密码想断开连接就直接点击上面创建按钮旁边的断开连接。

2024-03-06 09:28:56 1453 1

原创 STL基础

STL是一些容器的集合,也是算法和其他一些组件的集合 ,algorithm(头文件)是对容器继承的一些算法函数,辅助刷算法题 万能头文件:#include<bits/stdc++.h>排序 还是用sort , 第三个参数为比较器,不写默认为less() 默认的排序方法是从小到大,加上greater<数据类型>(),就变成从大到小。构造和和前面几种容器的用法一致,输出队首元素类似动态数组vector用到了front(),进队出队用到了类似栈的push()和pop()

2024-03-06 09:20:20 888 1

原创 pytorch学习笔记

定义具有参数的层, 这些参数可以通过训练进行调整。我们可以使用内置函数来创建参数,这些函数提供一些基本的管理功能。比如管理访问、初始化、共享、保存和加载模型参数。这样做的好处之一是:我们不需要为每个自定义层编写自定义的序列化程序。现在,让我们实现自定义版本的全连接层。回想一下该层需要两个参数,一个用于表示权重另一个用于表示偏置项。在此实现中,我们使用修正线性单元作为激活函数。in_units和units,分别表示输入数和输出数。

2024-03-05 12:59:33 939 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除