懂什么-优快云博客

转载 spark基本概念（总结和理解）

基本概念和任务的执行流程1、基本概念https://www.cnblogs.com/superhedantou/p/5699201.html2、执行流程https://blog.youkuaiyun.com/thomas0yang/article/details/50352261这个针对yarn的，可惜图挂了https://www.jianshu.com/p/42fff40bfe31补充...

2017-06-28 20:00:32 707

转载数据库事务级别

1、https://blog.youkuaiyun.com/qq_33591903/article/details/816722602、https://blog.youkuaiyun.com/zhouym_/article/details/90381606

2019-11-14 22:47:42 195

原创 java 储存位置

final常量储存在在heap中的常量池（堆内存中的方法区的常量池） https://www.cnblogs.com/zhaohongtian/p/6801302.html看看链接里的图static储存在数据区：用来存放static定义的静态成员。堆储存new的对象栈储存对象引用和基本的数据 ...

2018-09-21 00:18:13 412

转载类加载荷初始化

https://blog.youkuaiyun.com/noaman_wgs/article/details/74489549 里面有一段分析输出结果的原因再回过头来分析一开始的面试题： Singleton输出结果：1 0 原因：1 首先执行main中的Singleton singleton = Singleton.getInstance(); 2 类的加载：加载类Singleton ...

2018-09-19 23:43:46 252

1、iohttps://blog.youkuaiyun.com/u010041075/article/details/490077312、nio概述https://www.cnblogs.com/dolphin0520/p/3919162.htmlhttps://blog.youkuaiyun.com/qq_28191657/article/details/79335487https://segm...

2018-09-10 00:08:27 200

转载进程线程-内存溢出和内存泄漏

转载https://www.cnblogs.com/xll1025/p/6512048.htmlhttps://www.cnblogs.com/xll1025/p/6516143.html

2018-09-09 22:44:25 372

转载 java try catch finally中的return问题

https://blog.youkuaiyun.com/jsjdtb356/article/details/52160763https://blog.youkuaiyun.com/qq_30816657/article/details/80297646public class test { public int add(int a,int b) { try { re...

2018-09-09 22:14:28 231

转载 spark cluster和client

在Yarn-cluster模式下，driver运行在Appliaction Master上https://blog.youkuaiyun.com/high2011/article/details/67637338http://www.jobplus.com.cn/article/getArticleDetail/30566https://blog.youkuaiyun.com/Regan_Hoo/articl...

2018-09-09 00:32:44 354

转载 spark的运行流程

1、综合简述https://www.jianshu.com/p/cedbebfeea8c2、申请资源和完成task的详细流程，看了也记不下来https://www.jianshu.com/p/612ad0898fe2https://www.jianshu.com/p/447483ff8a12 ...

2018-09-09 00:09:01 151

转载 mysql优化策略

一、索引的优化1、对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。对于经常在where子句使用的列，最好设置索引，这样会加快查找速度对于有多个列where或者order by子句的，应该建立复合索引尽量使用短索引，如果可以，应该制定一个前缀长度--只使用字符串的前一部分作为索引2、只要列中含有NULL值，就最好不要在此例设置索引，复...

2018-07-04 20:41:17 995

原创计算机网络--tcp

如果TCP发送了对某个序号N的确认，则表明在N之前的所有字节流都已经被正确接收。但是另一方面，TCP又不会像GBN协议那样简单丢弃失序到达的报文段，而是会将它们缓存起来，但是这些被缓存的报文段不会逐个被确认。意思是说，如果数据失序到达，并不会抛弃，也不会发送确认消息（原因见第一行），而是等待未到达的数据到达并组成完整数据交付上一层，但是如果超过计数器的时限后还没有到达，发送端就会重新发送，接收端如...

2018-06-15 23:39:35 226

转载 HDFS基础

一、数据存储1.1 HDFS基础架构namenode：namenode对元数据有三种存储方式：内存元数据(NameSystem) 磁盘元数据镜像文件数据操作日志文件（可通过日志运算出元数据）namenode中的元数据如果存储在namenode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断点，元数据丢失，整个集...

2018-03-31 11:58:00 679

转载 Spark排错与优化

这篇文章里的一些经验是很棒的，值得学习。https://blog.youkuaiyun.com/lsshlsw/article/details/49155087https://blog.youkuaiyun.com/duan_zhihua/article/details/77422372

2018-03-29 12:07:33 228

原创 spark partition和hdfs block的关系

背景：最近遇到了一个问题，一个程序利用hive sql 读取数据时出现了轻微的数据倾斜（每个task的输入data 大小类似，但是executor的数据大小有差距），我怀疑是每个partition的数据大小不同，导致的这个问题。（但我想的很明显是错的，如果使用的是textfile，每个task处理的就是一个partition的数据，而每个partition的数据应该是每个block的数据）。而现...

2018-03-28 18:57:57 4130

原创 repartition和coalesce优化使用

def coalesce(self, numPartitions, shuffle=False): """ Return a new RDD that is reduced into `numPartitions` partitions. >>> sc.parallelize([1, 2, 3, 4, 5], 3).glom().collect() [[...

2018-03-28 18:57:25 1904

转载 rdd

一、rdd的特性1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通...

2018-03-28 18:56:38 427

转载 mysql执行顺序

(1)from (2) on (3) join (4) where (5)group by(开始使用select中的别名，后面的语句中都可以使用)(6) avg,sum.... (7)having (8) select (9) distinct (10) order by 从这个顺序中我们不难发现，所有的查询语句都是从from开始执行的，在执行过程中，每个步骤都会为下一个步骤生成一个虚拟表，这...

2018-03-28 18:55:15 742

原创 hive索引和分区

Hive的索引目的是提高Hive表指定列的查询速度。没有索引时，类似'WHERE tab1.col1 = 10' 的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。与其他传统数据库一样，增加索引在提升查询速度时，会消耗额外资源去创建索引和需要更多的磁盘空间存储索引。总结：索引表的基本包含几列：1. 源表的索引列；2. ...

2018-03-28 18:54:40 705

转载 hdfs之namenode中储存的数据

转至元数据结尾创建：杨晨，最新修改于：三月 22, 2018转至元数据起始主服务器管理文件的命名空间　　凡是对文件系统命名或其他属性的修改信息都会保存到这里。　　比如，有个名为Eva的文件放在目录/usr下，现在要将他改名为zuo，移动到/usr/local目录下，这些修改日志都会被 NameNode的edit log文件记录。存放HDFS的元数据信息　　即文件系统的目录树以及追踪集群...

2018-03-28 18:53:37 3541

转载 executor & task lost

转至元数据结尾创建：杨晨于三月 23, 2018转至元数据起始我的程序在运行过程中会出现很多executor lost的情况，但是需要注意的是并不是每一次都会出现这样的情况，而是出现这种问题之后，重跑时可能就不会出现这种情况。初步判断应该是程序的运行资源有问题，driver和task之间的通信出现问题。--这只是可能的情况，等待测试结合博客任务倾斜理解，即任务执行慢就换一个节点执行错误提示e...

2018-03-28 18:52:44 742

原创任务倾斜（注意和数据倾斜的差异）

转至元数据结尾转至元数据起始数据倾斜指的是某个节点的数据太大，数据跑不完。而任务倾斜则是节点出问题，任务跑的慢。正好和目前出现的executor&task lost相呼应。task倾斜原因比较多，网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢，可以去看该节点的性能监控来分析原因。开启spark的推测机制后如果某一台机器的几个task特别慢，推测机制会将任务分配到其他机器执行，...

2018-03-28 18:50:40 526

原创 Git基础

1、创建提交 git init 初始化仓库 git add +file git commit –m ”说明”2、查看状态git statusgit diff2.1 比较工作区与暂存区　　git diff 不加参数即默认比较工作区与暂存区2.2比较暂存区与最新本地版本库（本地库中最近一次commit的内容）　　git diff --cached file

2017-12-19 20:46:27 132

原创 spark文档学习1 Spark Streaming Programming Guide

一、 Overview定义：Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. 工作原理：Spark Streaming receives

2016-10-17 15:57:01 477

原创《数据结构与算法》学习笔记29 最小生成树

s

2016-09-21 15:48:59 265

原创《数据结构与算法》学习笔记30 有向图的拓扑排序

(1)、找到一个没有后继的顶点(如果有一条边从A指向B,那么B是A的后继)。(2)、从图中删除这个顶点，在列表的前面插入顶点的标记。(3)、重复步骤1和2.直到所有的顶点都从图中删除。这时列表显示的顶点顺序就是拓扑排序的结果。

2016-09-21 15:44:38 273

原创《数据结构与算法》学习笔记28 图搜索

深度优先搜索：广度优先搜索：

2016-09-18 23:32:05 210

原创《数据结构与算法》学习笔记27 堆排序

public class Node { private int data; public Node(int key){ data=key; } public int getKey(){ return data; } public void setKey(int id){ data

2016-09-18 21:52:20 227

原创《数据结构与算法》学习笔记26 堆

用堆实现优先级队列，O(logn)1、完全二叉树。除了最后一层节点不需要是满的，其他的每一层从左到右都完全是满的2、常由数组实现。3、堆里的每一个节点都满足：父节点关键字大于所有的子节点。public class Node { private int data; public Node(int key){ data=key; }

2016-09-15 19:31:24 194

原创《数据结构与算法》学习笔记25 红黑树

1、根节点总是黑色2、如果节点是红色，则子节点必须是黑色。反之不一定成立。3、整个树完全黑色平衡，即从任意的节点到其所有叶子结点的路径上，黑色节点的个数都相同。4、叶节点是黑色的。（这个要注意红色的上移）如果节点的右子节点为红色，且左子节点位黑色，则进行左旋操作如果节点的左子节点为红色，并且左子节点的左子节点也为红色，则进行右旋操作如果节点的左右子节点均为红色，则执行Fli

2016-09-15 18:27:02 284

原创数据结构学习笔记24 二叉树

public class Node { public int id; public double data; public Node leftNode; public Node rightNode; public void displayNode(){ System.out.println("("+id+","+data+")"); } p

2016-09-15 15:03:44 260

原创数据结构学习笔记23 快速排序和基尔排序

待定

2016-09-15 15:02:49 596

原创 spark学习笔记6 spark的shuffle机制（有待补充）

1、shuffle的概念和具体流程shuffle，是一个算子，表达的是多对多的依赖关系，在类MapReduce计算框架中，是连接Map阶段和Reduce阶段的纽带，即每个Reduce Task从每个Map Task产生数的据中读取一片数据，极限情况下可能触发M*R个数据拷贝通道（M是Map Task数目，R是Reduce Task数目）。通常shuffle分为两部分：Map阶段的数据准备和Re

2016-09-13 12:42:49 317

原创 spark学习笔记5 spark容错性

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD

2016-09-12 21:42:57 1061

原创 spark学习笔记4 spark的io机制

挑战1:数据分区分散在多个计算机系统中。挑战2:spark处理的数据量大。spark不仅要考虑本地主机的io开销，还要考虑数据在主机之间的传输开销。寻址方式也要改变。1、序列化序列化是将对象转换为字节流，本质上可以理解为将链表存储的非连续空间的数据存储转化为连续空间存储的数组中。这样就可以将数据进行流式传输或者块存储。相反，反序列化就是将字节流转化为对象。序列化的目的是

2016-09-12 20:56:15 815

原创 spark学习笔记3 spark应用程序之间的调度

1、调度配置Standalone集群模式：默认情况下，提交给Standalone集群的应用程序以FIFO（first in, first out）顺序执行，同时，每个应用程序都会尝试使用所有可用的节点。你可以通过设置属性spark.cores.max来限制应用程序能使用的节点数目，或者，对于那些未设置该属性的应用程序，还可以通过设置属性spark.deploy.defaultCores来改变默

2016-09-12 19:37:08 945

原创 spark学习笔记2 spark应用执行机制

spark的主要模块：调度与任务分配 i/o模块通信控制模块容错模块 shuffle模块1、应用转换流程action算子触发job提交，提交到spark的job生成RDD DAG，经过DAGScheduler转化为stage DAG，每个stage中产生相应的task集合，taskscheduler讲任务分发到executor执行。每个任务对应相应的一个数据块，使用用户定义的函数处

2016-09-12 17:37:07 338

原创 spark学习笔记1 spark算子

1、map和flatMap的区别Spark 中 map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象。而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：操作1：同map函数一样：对每一条输入进行指定的操作，然后为每一条输入返回一个对象操作2：最后将所有对象合并为一个对象2、mapPartitions该函数和map函数类似，

2016-09-11 19:30:55 396

原创《数据结构与算法》学习笔记22 递归_希尔排序

希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。希尔排序的增量为h＝（h-1）/3。public class Arraysh { private long[] a; private int size; public Arraysh(int n){ a=new long[n];

2016-08-25 22:31:24 347

原创《数据结构与算法》学习笔记21 递归_消除递归

//在计算1+2+3+...＋n时，不使用递归的方法//相当麻烦又毫无用处，看半天不太懂，心累//利用栈实现三角数字相加public class Parames { public intn; //数值 public int returnAdd;//标志 public Parames(intnum,

2016-08-24 00:53:06 469

原创《数据结构与算法》学习笔记20 递归_归并排序

//比简单排序效率高大o表示法分别是：O(n^2)>O(n*logn)，但是比较占用内存public class DArray { private long[] a; private int size; public DArray(int n){ a=new long[n]; size=0; } public void inse

2016-08-23 23:44:32 269

空空如也

空空如也