面试
文章平均质量分 90
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
超全面试汇总——Hadoop(二)
超全面试汇总——Hadoop(二)谈谈什么是Hadoop?@@MapReduce分布式计算@shuffle流程shuffle阶段的数据压缩机制了解吗MapReduce实现基本SQL操作的原理1. Join的实现原理2. Group By的实现原理3. Distinct的实现原理一个文件有上亿url,内存很小,找Top10@SQL转化为MapReduce的过程什么是数据倾斜数据倾斜的表现@发生数据倾斜的原因@如何解决数据倾斜@聚合类group by操作,发生数据倾斜@Reduce join 改为Map joi原创 2021-06-07 14:32:13 · 994 阅读 · 6 评论 -
超全面试汇总——Hadoop(一)
超全面试汇总——Hadoop(一)HDFS文件系统的特点@@HDFS的读写流程@客户端和NameNode、DataNode通信过程底层文件结构 好处@HDFS存储文件类型@HDFS的组成,重要角色HDFS的几个进程@yarn 集群的架构@yarn执行流程yarn 的资源调度三种模型HDFS的高可靠性冷备份 secondary node工作原理:@hadoop的HA(高可用)实现和zk的作用在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂Zookeeper起什么作用的@ZooKeeper的选举机制@原创 2021-05-31 19:34:54 · 978 阅读 · 2 评论 -
超全面试总结——操作系统
超全面试总结——操作系统死锁的四个必要条件进程和线程的区别 和 使用场景进程间通信的方式有什么?线程间通信的方式有什么?一个进程可以创建多少线程,和什么有关?CPU负载和CPU利用率的区别是什么?如果CPU负载很高,利用率却很低该怎么办如果负载很低,利用率却很高常见Linux命令死锁的四个必要条件互斥条件:一个资源每次只能被一个进程使用。占有且等待:一个进程因请求资源而阻塞时,对已获得的资源保持不放。不可强行占有:进程已获得的资源,在末使用完之前,不能强行剥夺。循环等待条件:若干进程之间形成一种原创 2021-05-31 19:29:40 · 295 阅读 · 0 评论 -
explain分析SQL执行计划
explain分析SQL执行计划慢查询配置慢查询日志具体参数解析优化案例 LIMIT分页解决方法一 :构造覆盖索引解决方法二:优化offset解决方法三:延迟关联优化建议慢查询配置-- 查看是否开启慢查询show variables like '%slow_query_log%';+---------------------+-------------------------------------+| Variable_name | Value原创 2021-05-24 21:04:55 · 532 阅读 · 0 评论 -
生产者-消费者模型
生产者-消费者模型什么是生产者-消费者模式为什么要使用生产者消费者模式模型的优点生产者-消费者模式的应用场景wait()/notify()/notifyAll()synchronized配合实现MainProducerConsumer什么是生产者-消费者模式比如有两个进程A和B,它们共享一个固定大小的缓冲区,A进程产生数据放入缓冲区,B进程从缓冲区中取出数据进行计算,那么这里其实就是一个生产者和消费者的模式,A相当于生产者,B相当于消费者生产者线程:“生产”产品,并把产品放到一个队列里;消费者线程原创 2021-05-18 19:10:44 · 369 阅读 · 0 评论 -
Spark总结
Spark总结Spark的内置模块Spark的特点 和 hadoop的区别Spark的重要角色RDD持久化原理checkpoint检查点机制checkpoint和持久化机制的区别RDD机制理解吗Spark streaming以及基本工作原理Spark工作机制宽依赖和窄依赖Spark主备切换机制原理Spark数据倾斜的产生和解决方法Spark Sql 和 DataFrameRDD中reduceBykey与groupByKey哪个性能好Spark的内置模块Spark Core:Spark Core包含原创 2021-05-10 20:19:40 · 21033 阅读 · 0 评论 -
超全面试总结——数据仓库 超详细!!!带答案!!!持续更新中~
超全面试总结——数据仓库如何理解数仓为什么要数据仓库建模为什么要设计数据分层通用的数据分层设计分层的原则是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?维度建模三种模式 星形、雪花、星座事实表事实表设计方法维度表什么是缓慢变化的维度维度表设计方法如何维度建模最常见的三种数据仓库建模体系什么是ETL?常用的ETL工具联机分析处理 OLAPOLAP和OLTP的区别元数据(Metadata)ER建模如何理解数仓数据仓库就是整合多个数据源的历史数据进行细粒度的、多维度的分析,帮助高层管理者或者业务原创 2021-05-07 19:00:02 · 3735 阅读 · 2 评论 -
超全面试汇总——Hive 超详细!!!带答案!!!持续更新中~
Hive面试总结什么是 Hive ?Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中 排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作,发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替orde原创 2021-04-30 08:50:45 · 7915 阅读 · 1 评论 -
超全面试汇总——MySQL
三大范式四大原则 ACID如何保证一致性?原子性?持久性?数据库隔离级别并发事务会带来哪些问题数据库中的锁存储引擎为什么使用索引如何选取合适的索引四种索引类型 有哪些索引?有什么特点?B树索引方式的区别是什么?MySQL优化索引为什么使用B+树 不用hash表和B树?B-树 以及 B+树主键、超键、候选键、外键如何查询一条sql语句MySQL的内部构造Mysql 磁盘文件原创 2021-04-29 16:34:06 · 974 阅读 · 0 评论 -
超全面试汇总——计算机网络
计算机网络面试常考点TCP建立连接(三次握手)三次握手而不是两次:TCP断开连接(四次挥手)挥手为什么需要四次?为什么客户端最后还要等待2MSL?TCP四大拥塞控制算法总结?(极其重要)OSI 的七层模型分别是?各自的功能是什么?说一下一次完整的HTTP请求过程包括哪些内容?DNS及其原理TCP建立连接(三次握手)初始状态:客户端处于 closed(关闭)状态,服务器处于 listen(监听) 状态。第一次握手(SYN=1, seq=x): 客户端发送请求报文将 SYN = 1同步序列号和初始化序原创 2021-04-25 22:41:03 · 282 阅读 · 0 评论 -
spark、spark-core、RDD 总结
1. Spark 概念1.1 什么是spark基于内存的分布式计算框架只负责算 不负责存spark 在离线计算 功能上 类似于mapreduce的作用1.2 为什么用sparkMapReduce的缺点运行速度慢 (没有充分利用内存)接口比较简单,仅支持Map Reduce功能比较单一 只能做离线计算不适合迭代计算(如机器学习、图计算等等),交互式处理(数据挖掘)不适合流式处理(点击日志分析)需要一种灵活的框架可同时进行批处理、流式计算、交互式计算内存计算引擎,提供原创 2020-10-19 15:59:19 · 415 阅读 · 0 评论 -
SQL中的锁(行锁、页锁、表锁、共享锁、排它锁、乐观锁、悲观锁)
SQL中的锁按照锁颗粒对锁进行划分行锁页锁表锁从数据库管理的角度对锁进行划分共享锁排它锁从程序员的角度对锁进行划分乐观锁 (Optimistic Locking)悲观锁(Pessimistic Locking)适用场景避免死锁的发生锁用来对数据进行锁定,我们可以从锁定对象的粒度大小来对锁进行划分,分别为行锁、页锁和表锁。按照锁颗粒对锁进行划分行锁就是按照行的粒度对数据进行锁定。锁定力度小,发生锁冲突概率低,可以实现的并发度高,但是对于锁的开销比较大,加锁会比较慢,容易出现死锁情况。页锁就是原创 2021-04-13 15:26:41 · 7790 阅读 · 0 评论 -
数据仓库之分层 为什么分层 如何分层 和数据库的区别
数据仓库分层如何理解数仓为什么要设计数据分层通用的数据分层设计每层之间的界限又是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?如何理解数仓数据仓库就是整合多个数据源的历史数据进行细粒度的、多维度的分析,帮助高层管理者或者业务分析员做出决策。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。为什么要设计数据分层需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一原创 2021-03-04 21:15:38 · 965 阅读 · 1 评论 -
NC140排序——手写快排
NC140排序知识点:排序题目链接题目描述给定一个数组,请你编写一个函数,返回该数组排序后的形式。示例1输入:[5,2,3,1,4]返回值:[1,2,3,4,5]示例2输入:[5,1,6,2,5]返回值:[1,2,5,5,6]备注:数组的长度不大于100000,数组中每个数的绝对值不超过109解题思路快排思想:用到了分治思想,和分治算法一样为了进行排序需要先对其划分的子区间进行排序。基本思想:在待排序的序列中选取一个值作为一个基准值,按照这个基准值得大小将这个序列划分成两个原创 2021-02-28 23:26:33 · 416 阅读 · 0 评论 -
RFM模型总结
RFM模型1. 什么是RFM模型?2. RFM有什么作用?3. 怎么构建RFM模型1. 什么是RFM模型?RFM名词解释R:最近一次消费(recency) 代表用户距离当前最后一次消费的时间 反向值 R越大 用户价值越低F:消费频次(frequency) 用户在一段时间内,在产品内的消费频次,重点是我们对一段时间的定义 正向值 F越大 用户价值越高M:消费金额(monetary) 代表用户的价值贡献 正向值 M越大 用户价值越高8种分类在其他领域中同样适用,需要结合实原创 2020-12-07 15:02:06 · 3057 阅读 · 0 评论 -
蒸汽预测赛题——模型融合(总结篇)
蒸汽预测赛题——模型融合 总结篇理论知识1. 导入包2. 对数据进行处理2.1 导入并合并数据2.2 查看Kde曲线并删除相关特征2.3 进行最大最小归一化 和 Box-Cox变换2.4 划分数据集2.5 用于基于模型的预测来检测离群值2.6 获得训练集和测试集3. 模型训练3.1 网格搜索模型3.2 网格搜索实例3.3 bagging4. 多模型Bagging5. 改进方向天池大赛比赛地址:链接成绩:理论知识改善模型方法研究模型学习曲线 判断模型是否过拟合或者欠拟合模型权重参数分析特原创 2020-12-07 12:35:50 · 931 阅读 · 0 评论 -
蒸汽预测赛题——模型验证
蒸汽预测赛题——模型验证理论知识1. 导包2. 加载数据3. 拟合数据4. 交叉验证 K折KFold、留一法LeaveOneOut、留P法LeavePOut5. 模型超参空间搜索 GridSearchCV6.LGB模型5折交叉验证7. 学习曲线8. 验证曲线天池大赛比赛地址:链接理论知识欠拟合 高偏差增加额外特征增加多项式特征降低惩罚过拟合 高方差收集更多数据使用更少的特征增加惩罚**泛化:**机器学习模型学习到的概念在处理未遇到过的样本时的表现正则化:防止过原创 2020-11-29 21:36:58 · 336 阅读 · 1 评论 -
特征工程系列:特征筛选的原理与实现
特征工程系列:特征筛选的原理与实现1. 什么是特征工程2. 特征选择的方法2.1 Filter方法 过滤法2.2 Wrapper方法 封装式2.3 Embedded方法 嵌入式3. 特征选择实现3.1 去掉取值变化小的特征 要有区分度3.2 单变量特征选择3.2.1 Pearson相关系数 连续型3.2.2 互信息 和 最大信息系数 MINE 离散型3.2.3 距离相关系数3.2.4 基于学习模型的特征排序 cross_val_score3.2.5 卡方检验 离散型 chi23.3 线性模型与正则化3.原创 2020-11-20 00:27:36 · 1297 阅读 · 0 评论 -
常见决策树(ID3、C4.5、CART)带代码
决策树定义是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树信息熵熵 用于衡量一个对象的有序程度从信息的完整性上描述当系统的有序状态一致时,数据越集中的地方熵值越小;数据越分散的地方熵值越大从信息的有序性上描述当数据量一致时,系统越有序, 熵值越低;系统越混乱分散,熵值越高Ent(A) = - (求和 k=1-n) p_k * log_2(p_k) = -p1log2p1-p2l原创 2020-09-10 00:17:49 · 1363 阅读 · 0 评论 -
数据分析概念总结
数据分析概念总结APrirori算法: 通过分析购物篮中的商品集合,找出商品之间的关联关系。利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额。商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系预测用户购物行为属于商业智能,即Business Intelligence,缩写是 BI他们积累的顾客的消费行为习惯会存储在数据仓库中,即Data Warehouse,缩写DW通过对个体进行消费行为分析总结出来的规律属于数据挖掘,即Data Mining,缩写是 DM原创 2020-11-12 00:05:13 · 668 阅读 · 0 评论 -
Numpy操作总结
Numpy小结具体操作详见:链接Numpy定义开源的Python科学计算库,用于快速处理任意维度的数组Numpy中,存储对象是ndarray创建np.array([])numpy的优势内存块风格一体式存储支持并行化运算效率高于纯Python代码底层使用了C,内部释放了GIL(全局解释器)ndarray的属性名字 属性解释ndarray.shape 数组维度的元组ndarray.ndim 数组维数ndarray.size 数组中的元素数量原创 2020-08-25 23:39:49 · 341 阅读 · 0 评论 -
Pandas操作总结
Pandas小结具体操作详见:链接pandas概念开源的数据挖掘库 用于数据探索封装matplotlib,numpy创建DataFrame,修改index和columnspd.DataFrame(ndarry,index= ,columns= )创建日期pd.date_range()start – 开始日期end – 结束日期periods – 时间跨度 与end选其一即可freq – 统计时间方式行索引,叫index,axis=0列索引,原创 2020-08-29 22:07:51 · 399 阅读 · 0 评论 -
网易2020校招数据分析方向提前批笔试题解析
网易2020校招数据分析方向提前批笔试题选择题简答题编程题选择题有一类二叉树用三叉链表来存储的时候除了带有指向左右孩子节点的两个指针,还有指向父节点的指针,那么这样一棵二叉树有2个节点,那么有多少指针指向NULL(注:根节点的父指针指向NULL,对于不存在的节点表示为NULL)?题解 : 4个指针 画个图可知下列最短路径算法的叙述中正确的是(B)A. Dijkstra算法通常用于求每一对顶点间的最短路径;B. Dijkstra算法不允许图中带有负权值的边,而Floyd算法则可以适用;原创 2020-11-10 10:26:45 · 704 阅读 · 0 评论 -
基于pyspark的个性化电商广告推荐系统
个性化电商广告推荐系统1. 数据介绍2. 项目实现分析2.1 数据概况2.2 业务流程3. 预处理behavior_log数据集3.1 创建spark session3.2 读取文件并修改schema3.3 查看数据情况3.4 透视表操作3.5 把btag中的操作转化为打分3.6 根据用户对类目偏好打分训练ALS模型3.7 ALS模型预测 初步存储到redis中4. 分析处理raw_sample数据集4.1 加载数据并修改schema4.2 查看数据情况4.3 广告展示位进行热度编码4.4 根据时间戳划分原创 2020-11-05 19:29:29 · 1985 阅读 · 5 评论 -
连续特征和分类特征数据缺失的处理方法
数据缺失 处理方法连续的特征分类的特征利用算法预测缺失值连续的特征缺失比例比较严重 可以考虑舍弃可以考虑使用平均值 中位数 分位数填充算法预测 (利用样本中的其它特征作为 特征值,有缺失的特征作为目标值)分类的特征缺失比例比较严重 可以考虑舍弃把缺失作为单独的分类, 如果之前的数据只有两个分类,那么把缺失考虑进来就变成3个分类算法预测利用算法预测缺失值其它特征和要预测的特征之间是否有联系样本数据是否足够利用算法预测缺失值会引入噪声...原创 2020-11-02 15:33:42 · 1254 阅读 · 0 评论 -
利用pandas的chunksize分块处理大型csv文件
利用pandas的chunksize分块处理大型csv文件当读取超大的csv文件时,可能一次性不能全部放入内存中,从而无法加载,所以需要分块处理。在read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReaderimport pandas as pd''' chunksize:每一块有100行数据 iterator:可迭代对象 '''reader = pd.read_csv('all_test.csv',chun原创 2020-11-02 12:02:03 · 2031 阅读 · 0 评论 -
Mysql 练习(牛客网Mysql总结)
Mysql 练习查找最晚入职员工的所有信息select * from employees where hire_date = (select max(hire_date) from employees);查找入职员工时间排名倒数第三的员工的所有信息-- order by 排序-- desc 从大到小-- limit 2,1 从第二条开始读,读一条select * from employees order by hire_date desc limit 2,1;查找各个部门当前(原创 2020-11-02 11:40:25 · 488 阅读 · 0 评论 -
小红书2020校招数据分析笔试题卷四 解析
小红书2020校招数据分析笔试题卷四 解析单选题多选题填空题简答题题目来自小红书2020校招数据分析笔试题卷四单选题如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价,那么客人就一定会选择在此购买;价格每增加1元,客人的流失的可能性就会增加1%。那么该商户给客人报出最优价格为550元 题解:这里500元为成本,总利润 = 单件利润 * 成交数量 设 定价为x 总利润 = (x -500) * (1 - (x - 500)/100 ) = -1/100x2 +11x原创 2020-10-30 15:03:34 · 3709 阅读 · 0 评论 -
numpy中std()和pandas中std()的区别
numpy中std和pandas中std的区别偏差 (deviation): 样本中各数据比平均值大多少或小多少方差 (deviation): 将偏差进行平方再取平均标准差(standard deviation):标准差也即偏差的均方根值。也就是所有数减去平均值,它的平方和除以数的个数(或个数减一),再把所得值开根号,就是1/2次方,得到的数就是这组数的标准差。计算得出的默认标准偏差类型在 numpy 的 .std() 和 pandas 的 .std() 函数之间是不同的原创 2020-10-29 14:31:14 · 996 阅读 · 0 评论 -
数据分析面试总结
数据分析面试总结1. 介绍下hadoop的底层2. 数据库三大范式3. 数据库四大原则4. 简述快排 及 复杂度5. 简述链表 和 数组区别6. 解决哈希冲突的方法7. 简述sql中left join、right join 和cross join1. 介绍下hadoop的底层hdfs 分布式存储扩展性&容错性&海量数量存储数据会拆成小块 128MB 一个block数据会冗余 默认3个副本name node负责客户端请求的响应负责元数据(文件的名称、副本系数、Block存原创 2020-10-27 12:23:36 · 544 阅读 · 0 评论 -
详解Spark SQL 底层实现原理(parser、analyzer、optimizer、physical plan)
Spark SQL 底层实现原理1. Spark SQL架构设计2. sparkSQL执行过程3. SQL举例4. Catalyst执行过程4.1 sql解析阶段Parser4.2 绑定逻辑计划Analyzer4.3 逻辑优化阶段Optimizer4.3.1 谓词下推4.3.2 列裁剪4.3.3 常量替换4.3.4 常量累加4.4 生成可执行的物理计划阶段Physical Plan4.5 代码生成阶段4.5.1 生成代码与sql解析引擎的区别5. Spark SQL 执行过程总结1. Spark SQL架原创 2020-10-22 15:08:52 · 4308 阅读 · 0 评论 -
B树和B+树在MongoDB和Mysql中应用(转载)
从 MongoDB 及 Mysql 谈B/B+树转载:https://blog.youkuaiyun.com/wwh578867817/article/details/50493940B-树由来定义:B-树是一类树,包括B-树、B+树、B*树等,是一棵自平衡的搜索树,它类似普通的平衡二叉树,不同的一点是B-树允许每个节点有更多的子节点。B-树是专门为外部存储器设计的,如磁盘,它对于读取和写入大块数据有良好的性能,所以一般被用在文件系统及数据库中。定义只需要知道B-树允许每个节点有更多的子节点即可。子节点数量一般转载 2020-07-15 13:29:31 · 543 阅读 · 0 评论 -
mysql面试题总结(存储、查询、写操作、实现事务、加锁)
数据存储MySQL磁盘文件介绍MySQL索引结构如何查询一条SQL语句索引介绍磁盘数据加载到InnoDB内存MySQL的写操作脏页(数据页被修改)落盘MySQL是如何实现事务的事务并发问题回顾事务隔离级别MVCC机制ReadViewMySQL是如何加锁的原创 2020-09-14 23:43:13 · 396 阅读 · 0 评论 -
运维面试小结(持续更新)
1.TCP建立连接(三次握手)建立一个 TCP 连接时,需要三次握手,即需要客户端和服务器总共发送3个包。三次握手的目的是连接服务器指定端口,建立 TCP 连接,并同步连接双方的序列号和确认号,交换 TCP 窗口大小信息。在 socket 编程中,客户端执行 connect() 时。将触发三次握手。TCP服务器进程先创建传输控制块TCB,时刻准备接受客户进程的连接请求,此时服务器就进入了LISTEN(监听)状态;第一次握手(SYN=1, seq=x):客户端发送一个 TCP 的 SYN (同步位)原创 2020-08-01 12:31:53 · 464 阅读 · 0 评论
分享