- 博客(91)
- 收藏
- 关注
原创 华为实习生面试
华为一面:1、图的表示方式?(1)邻接表法:邻接表的核心思想就是针对每个顶点设置一个邻居表。以上面的图为例,这是一个有向图,分别有顶点a, b, c, d, e, f, g, h共8个顶点。使用邻接表就是针对这8个顶点分别构建邻居表,从而构成一个8个邻居表组成的结构,这个结构就是我们这个图的表示结构或者叫存储结构。a, b, c, d, e, f, g, h = range(8)...
2019-03-27 22:13:00
99
原创 Yarn学习
一、什么是Yarn YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster...
2019-03-25 11:32:00
92
原创 Hive相关知识点
---恢复内容开始---转载:Hive 性能优化介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜...
2019-03-25 10:41:00
88
原创 Hive调优总结
Hive调优总结 转载:Hive 性能优化介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。su...
2019-03-03 19:41:00
438
原创 hadoop/spark面试题
hadoop/spark面试题 总结于网络转自:https://www.cnblogs.com/jchubby/p/5449379.html1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwr...
2019-02-27 14:52:00
441
原创 Spark检查点机制
Spark检查点机制 Spark中对于数据的保存除了持久化操作之外,还提供了一种检查点的机制,检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减...
2019-02-26 20:25:00
911
原创 Spark中的分区方法详解
Spark中的分区方法详解 转自:https://blog.youkuaiyun.com/dmy1115143060/article/details/82620715一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个...
2019-02-26 11:00:00
698
原创 Spark Stage 的划分
Spark Stage 的划分 Spark作业调度对RDD的操作分为transformation和action两类,真正的作业提交运行发生在action之后,调用action之后会将对原始输入数据的所有transformation操作封装成作业并向集群提交运行。这个过程大致可以如下描述:由DAGScheduler对RDD之...
2019-02-26 10:09:00
415
原创 spark分区数,task数目,core数,worker节点个数,excutor数量梳理
转载自:https://www.cnblogs.com/hadoop-dev/p/6669232.htmlspark分区数,task数目,core数,worker节点个数,excutor数量梳理作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载...
2019-02-25 20:24:00
64
原创 Zookeeper之创建组,加入组,列出组成员和删除组
Zookeeper之创建组,加入组,列出组成员和删除组 public class CreateGroup implements Watcher { private static final int SESSION_TIMEOUT=5000; //ZooKeeper类是客户端API的主要类,用于维护客户端和ZooKeeper服务之间...
2019-02-24 20:41:00
517
原创 Paxos算法
介绍 Paxos算法是基于消息传递且具有高度容错特性的一致性算法,是目前公认的解决分布式一致性问题最有效的算法之一,其解决的问题就是在分布式系统中如何就某个值(决议)达成一致。 在常见的分布式系统中,总会发生诸如机器宕机或网络异常(包括消息的延迟、丢失、重复、乱序,还有网络分区)(也就是会发生异常的分布式系统)等情况。Paxos算法需要解决的问题就是如何在一个可能发生上述异常的分...
2019-02-24 16:07:00
43
原创 ZooKeeper典型应用场景
ZooKeeper典型应用场景 转自:http://blog.jobbole.com/110388/ ZooKeeper是一个高可用的分布式数据管理与协调框架。基于对ZAB算法的实现,该框架能够很好地保证分布式环境中数据的一致性。也是基于这样的特性,使得ZooKeeper成为了解决分布式一致性问题的利器。数据发布与订阅(配置中心) ...
2019-02-23 21:12:00
179
原创 zookeeper的基础知识
zookeeper的基础知识 转自:http://blog.jobbole.com/110388/介绍 ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、...
2019-02-23 15:59:00
175
原创 Hadoop的HA机制浅析
Hadoop的HA机制浅析 Zookeeper在Hadoop的HA中的应用非HA的弊端:HDFS集群的分布式存储是靠namenode节点(namenode负责响应客户端请求)来实现。在非HA集群中一旦namenode宕机,虽然元数据不会丢失,但整个集群将无法对外提供服务,导致HDFS服务的可靠性不高,这在实际应用场景中显然是不可行的。...
2019-02-22 21:39:00
150
原创 Mapreduce中的join操作
Mapreduce中的join操作 一、背景 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗...
2019-02-22 11:50:00
647
原创 MapReduce的二次排序
MapReduce的二次排序 二次排序的需求说明 在mapreduce操作时,shuffle阶段会多次根据key值排序。但是在shuffle分组后,相同key值的values序列的顺序是不确定的(如下图)。如果想要此时value值也是排序好的,这种需求就是二次排序。 ...
2019-02-21 22:06:00
2209
原创 MapReduce的类型与格式
MapReduce的类型与格式 MapReduce的类型默认的MR作业默认的mapper是Mapper类,它将输入的键和值原封不动地写到输出中默认的partitioner是HashPartitioner,它对每条记录的键进行哈希操作以决定该记录应该属于哪个分区(每个分区对应于一个reduce任务)默认的reducer是Reduce...
2019-02-20 20:02:00
374
原创 hadoop-uber作业模式
hadoop-uber作业模式 如果作业很小,就选择和自己在同一个JVM上运行任务,与在一个节点上顺序运行这些任务相比,当application master 判断在新的容器中的分配和运行任务的开销大于并行运行它们的开销时,就会发生这个情况。 哪些是小作业呢? 小作业就是 小于 10个 mapper 而且只有 1 个 ...
2019-02-20 11:15:00
650
原创 hadoop中map和reduce的数量设置问题
hadoop中map和reduce的数量设置问题 转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有...
2019-02-18 16:23:00
616
原创 Flink基础
Flink基础 一、抽象层次 Flink提供不同级别的抽象来开发流/批处理应用程序。 最低级抽象只提供有状态流。它 通过Process Function嵌入到D...
2019-01-14 21:23:00
227
原创 B-Tree
1.数据结构B-Tree 指的是 Balance Tree,也就是平衡树。平衡树是一颗查找树,并且所有叶子节点位于同一层。InnoDB存储引擎中默认每个页的大小为16KB,InnoDB在把磁盘数据读入到磁盘时会以页为基本单位,B-Tree结构的数据可以让系统高效的找到数据所在的磁盘块。为了描述B-Tree,首先定义一条记录为一个二元组[key, data] ,key为记录的键值,对应表中的主...
2018-12-26 14:16:54
179
转载 平衡二叉树(AVL树)
转自 :https://www.cnblogs.com/sench/p/7786718.html一、定义平衡二叉树,又称AVL树,它是一种特殊的二叉排序树。AVL树或者是一棵空树,或者是具有以下性质的二叉树:(1)左子树和右子树都是平衡二叉树;(2)左子树和右子树的深度(高度)之差的绝对值不超过1。二、旋转在进行插入和删除之前需要先了解AVL树的旋转操作。旋转操作主要包括LL(...
2018-12-26 10:47:23
237
原创 Leetcode中的SQL题目练习(二)
Leetcode中的SQL题目练习(二) 175. Combine Two Tableshttps://leetcode.com/problems/combine-two-tables/description/DescriptionPerson 表:Column NameType...
2018-12-25 15:52:00
138
原创 Leetcode中的SQL题目练习(二)
175. Combine Two Tableshttps://leetcode.com/problems/combine-two-tables/description/DescriptionPerson 表:Column NameTypePersonIdintFirstNamevarcharLastNamevarcharAddress 表:...
2018-12-25 15:51:49
236
原创 Leetcode中的SQL题目练习(一)
595. Big Countrieshttps://leetcode.com/problems/big-countries/description/DescriptionnamecontinentareapopulationgdpAfghanistanAsia6522302550010020343000AlbaniaEurope287482831...
2018-12-24 16:39:14
416
原创 Leetcode中的SQL题目练习(一)
Leetcode中的SQL题目练习(一) 595. Big Countrieshttps://leetcode.com/problems/big-countries/description/Descriptionnamecontinentareapopulationgdp...
2018-12-24 16:39:00
542
原创 R语言学习记录(二)
4、对象改值4.1、就地改值比如: vec <- c(0,0,0,0,0,0,0) vec[1]<-100 #vec向量的第一个值就变为100 ####对于数据框的改值的方法,如下面的例子 df <- data.frame(face=c("ace","two","six"),suit=c("clubs","clubs","clu
2018-12-17 22:11:09
147
原创 R语言学习记录(二)
R语言学习记录(二) 4、对象改值4.1、就地改值比如: vec <- c(0,0,0,0,0,0,0) vec[1]<-100 #vec向量的第一个值就变为100 ####对于数据框的改值的方法,如下面的例子 df <- data.frame(face...
2018-12-17 22:11:00
181
原创 R语言学习记录(一)
R语言学习记录(一) (R基础)对象:什么是对象呢,其实就是一个名称而已,在R中存储的数据 就是一个R对象a <- 1 ###其中‘<-’表示的是一个赋值符号 这句话表示的是,将1赋值给ab <- 1:6 #返回的是 1 2 3 4 5 6#还要注意的是,首先对象名称不...
2018-12-16 21:17:00
343
原创 R语言学习记录(一)
(R基础)对象:什么是对象呢,其实就是一个名称而已,在R中存储的数据 就是一个R对象a &amp;lt;- 1 ###其中‘&amp;lt;-’表示的是一个赋值符号 这句话表示的是,将1赋值给ab &amp;lt;- 1:6 #返回的是 1 2 3 4 5 6#还要注意的是,首先对象名称不能够以数字开头,其次一些特殊的符号不能在名称中出现 如 !, $, ^,@,+,-,/,* ,并且实区分大小写的,同...
2018-12-16 21:16:40
202
原创 视频访问量实时统计项目学习
(一)效果图先来两个效果图看看 图1 图2(二)日志产生 图1显示的效果表示的是对于某个视频网站的访问的视频类别,做的模拟统计示意效果图,比如爱奇艺视频,对于爱奇艺视频中的每个类别的视频的访问流量: https://list.iqiyi.com/www/2/-24------------11-1-1...
2018-11-03 17:03:11
870
原创 视频访问量实时统计项目学习
视频访问量实时统计项目学习 (一)效果图先来两个效果图看看 图1 图2(二)日志产生 图1显示的效果表示的是对于某个视频网站的访问的视频类别,做的模拟统计示意效果图,比如爱奇艺视频,对于爱奇艺视频中的每个类...
2018-11-03 17:03:00
628
原创 applogs流量数据项目学习
applogs流量数据项目学习 一、 项目介绍项目的功能主要是面向App开发商提供App使用情况的统计服务 主要是基于用户启动app的统计分析,app只要启动就会上报一条日志记录 (启动日志),当然也会有其他的日志比如说页面访问日志、错误日志等源码参考github: https://githu...
2018-10-28 15:49:00
199
原创 机器学习基础学习--决策树
机器学习基础学习--决策树 简介 决策树是一种基本的分类与回归方法,它是基于树的结构进行决策的。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子)。判断模块表示对...
2018-09-03 22:27:00
168
原创 大数据面试题知识点分析(十)
大数据面试题知识点分析(十) 转自:https://blog.youkuaiyun.com/qq_26803795/article/details/81747361 ...
2018-08-31 19:09:00
137
转载 大数据面试题知识点分析(十)
转自:https://blog.youkuaiyun.com/qq_26803795/article/details/81747361 ...
2018-08-31 19:08:45
256
原创 大数据面试题知识点分析(九)
大数据面试题知识点分析(九) 转自: https://blog.youkuaiyun.com/qq_26803795/article/details/79543926 为了保证效率和...
2018-08-31 16:31:00
131
转载 大数据面试题知识点分析(九)
转自: https://blog.youkuaiyun.com/qq_26803795/article/details/79543926 ...
2018-08-31 16:30:53
185
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人