大数据开发-优快云博客

原创 Mac上IDEA使用@Autowired后标红报错的快速解决方案

平时开发过程中，我们可能会遇到这样一个问题：使用@Autowired注解引用bean后，发现一片标红，仔细检查发现也没有用错，蒙圈中。本文告诉他们如何快速有效地解决这个问题。首先需要明确你引用的方式方法是正确的，只是需要降低IDEA的异常等级，方法如下：点击任意一个标红的类，显示出左边的小灯泡符号；点击灯泡符号，出现如下画面：点击进入修改Severity等级改为Warning级别就可以了，绝对好使。...

2020-05-22 15:10:19 682

原创方差、标准差、均方差和均方误差的区别

方差（variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。看这么一段文字可能有些绕，那就先从公式入手，对于一组随机变量或者统计数据，其期望值我们由E(X)表示，即随机变量或统

2018-01-31 10:54:39 2347 2

转载 java笔试中字符串翻转的几种方法

1.调用reversel（）方法实现翻转public static String reversel1(String str){ return new StringBuffer(str).reverse().toString();}通过new一个新的StringBuffer调用自带方法2.通过字符串数组实现从尾部开始逐个逆序放入字符串中

2017-08-29 17:10:44 526

转载剑指Offer面试题30（java版）：最小的k个数

题目：输入n个整数，找出其中最小的k个数。例如输入4，5，1，6，2，7，3，8这8个数字，则最小的4个数字是1，2，3，4这道题最简单的思路莫过于把输入的n个整数排序，排序之后位于最前面的k个数就是最小的k个数。这种思路的时间复杂度是O(nlogn）,面试官会提示我们还有更快的算法。解法一：O(n)的算法，只有当我们可以修改输入的数组时可用从上一题中我们可以得到启发，我们

2017-07-28 16:28:10 465

转载基于Flume的美团日志收集系统(二)改进和优化

基于Flume的美团日志收集系统(二)改进和优化dju alex ·2013-12-09 22:35在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flu

2017-07-17 10:25:46 635

转载基于Flume的美团日志收集系统(一)架构和设计

基于Flume的美团日志收集系统(一)架构和设计dju alex ·2013-12-09 22:30美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部

2017-07-17 10:25:00 511

转载 Kafka文件存储机制那些事

Kafka文件存储机制那些事“悠悠香草” ·2015-01-13 16:00Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级

2017-07-17 10:03:08 453

转载红黑树深入剖析及Java实现

振兴 ·2016-12-02 21:24红黑树深入剖析及Java实现红黑树是平衡二叉查找树的一种。为了深入理解红黑树，我们需要从二叉查找树开始讲起。BST二叉查找树（Binary Search Tree，简称BST）是一棵二叉树，它的左子节点的值比父节点的值要小，右节点的值要比父节点的值大。它的高度决定了它的查找效率。在理想的情况下，二叉查找树增删查改的

2017-07-17 09:59:43 454

转载 Spark性能优化指南——高级篇

Spark性能优化指南——高级篇前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。

2017-07-16 18:14:14 445

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学

2017-07-16 17:23:02 386

转载 java之线程本地存储

想必很多朋友对ThreadLocal并不陌生，今天我们就来一起探讨下ThreadLocal的使用方法和实现原理。首先，本文先谈一下对ThreadLocal的理解，然后根据ThreadLocal类的源码分析了其实现原理和使用需要注意的地方，最后给出了两个应用场景。　　以下是本文目录大纲：　　一.对ThreadLocal的理解　　二.深入解析ThreadLocal类　　

2017-07-10 20:21:36 1529

转载 JAVA 正则表达式（超详细）

在Sun的Java JDK 1.40版本中，Java自带了支持正则表达式的包，本文就抛砖引玉地介绍了如何使用java.util.regex包。　　可粗略估计一下，除了偶尔用Linux的外，其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具，而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里，正则表达式几乎没有什么限制，可肯定的是，它应用非常之广泛。

2017-07-07 18:26:48 599

原创计算机网络面试题总结

网络层向上只是提供简单灵活地、无连接的、尽最大努力支付的数据报服务。网络层不提供服务质量的承诺。网络在发送分组的时候不需要建立连接，每一个分组（IP数据报）独立发送，与其前后的分组无关（无需编号）网际协议IP网际协议ip是TCP/IP体系中的两个最重要的协议之一，与IP协议配套使用的还有四个协议：地址解析协议ARP（Address Resolution Protocol

2017-05-09 15:35:30 465

原创 TCP 的三次握手四次挥手

B的TCP服务器进程先创建传输控制块TCB，准备接受客户进程的连接请求，然后服务器进程处于LIsten(收听)状态，等待客户的连接请求，如果有，做出响应；A的TCP客户进程也是首先创建传输控制块TCB，然后向B发出连接请求报文段，着时首部中的同步位SYN=1，同时选择一个初始序号seq=x。TCP规定，SYN报文段（SYN=1的报文段）不能携带数据，但要消耗掉一个序号，这时，TCP客户

2017-05-08 16:02:25 395

转载关系型数据库和非关系型数据库的特性以及各自的优缺点

数据库类型特性优点缺点关系型数据库SQLite、Oracle、mysql1、关系型数据库，是指采用了关系模型来组织数据的数据库；2、关系型数据库的最大特点就是事务的一致性；3、简单来说，关系模型指的就是二维表格模型，而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。1、容易理解：二维表结构是非常贴近逻辑世界一个概念，关系模型相

2017-05-04 22:21:17 824

转载结构化数据与非结构化数据的区别

结构化数据与非结构化数据的区别（转载）在信息社会，信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号；而另一类信息无法用数字或统一的结构表示，如文本、图像、声音、网页等，我们称之为非结构化数据。结构化数据属于非结构化数据，是非结构化数据的特例。定义：　结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数

2017-05-04 22:05:13 34844 1

转载 Hbase 总结

转自：http://blog.youkuaiyun.com/u010270403/article/details/51648462HBase简介HBase的发展史2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起，2008年成为Apache Hadoop的一个子项目。现已作为产品在多家企业被使用，如：WorldLingoStreamy.

2017-05-04 15:33:46 765

转载 MySQL中竖表和横表之间的相互转换

转载自：http://blog.youkuaiyun.com/qq_22200361/article/details/53943853MySQL中竖表和横表之间的相互转换1. 横表转为竖表表tb的结构为表中的数据为现在要求查询到如下结果使用的SQL查询语句应该如下：或者使用下面查询

2017-04-27 17:47:39 1434

原创 2017年阿里巴巴实习生招聘笔试

抽奖活动有5个等级的奖，1等奖最大，5等奖最小，1等奖到四等奖各一个，5等奖有两个。规则：1等奖不能再前4轮抽出，a等奖与b等奖不能依次抽取（即不能这次抽出a等奖，下次抽出b等奖；反之也是），请用程序计算出有多少种开奖方式？（注意：a和b是通过键盘敲入的）

2017-04-26 20:45:50 500

转载 Java中遍历数组的三种方式复习

1 for循环遍历通常遍历数组都是使用for循环来实现。遍历一维数组很简单，遍历二维数组需要使用双层for循环，通过数组的length属性可获得数组的长度。程序示例：[java] view plain copypackage captain; public class ArrayDemo {

2017-04-26 09:47:39 22289

原创乐观锁和悲观锁

引言为什么需要锁（并发控制）？　　在多用户环境中，在同一时间可能会有多个用户更新相同的记录，这会产生冲突。这就是著名的并发性问题。典型的冲突有：丢失更新：一个事务的更新覆盖了其它事务的更新结果，就是所谓的更新丢失。例如：用户A把值从6改为2，用户B把值从2改为6，则用户A丢失了他的更新。脏读：当一个事务读取其它完成一半事务的记录时，就会发生脏读取

2017-04-26 09:34:28 261

原创 SparkStreaming 运行架构

SparkStreaming 进行数据的处理大致分为四个步骤：启动流处理引擎、接受以及存储数据、处理数据、输出结果等。（1）初始化StreamingContext对象，在该对象启动过程中实例化DStreamGraph和JobGenrator,其中DStreamGraph用于存放DStream以及之间的依赖关系等信息，而jobscher中ReceiverTracker和JobGentator。

2017-04-24 17:40:59 366

原创 sparkSQL学习笔记1

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，

2017-04-15 16:06:04 343

原创函数式编程与面向对象编程的比较

函数式编程作为结构化编程的一种，正在受到越来越多的重视。工程中不在只是面向对象编程，更多的人尝试着开始使用函数式编程来解决软件工程中遇到的问题。什么是函数式编程？在维基百科中给出了详细的定义，函数式编程（英语：functional programming）或称函数程序设计，又称泛函编程，是一种编程范型，它将电脑运算视为数学上的函数计算，并且避免使用程序状态以及易变对

2017-04-13 21:38:18 2538

转载 zookeeper 中的leader 选举机制

二、Leader选举　　2.1 Leader选举概述　　Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下两种情况之一时，需要进入Leader选举。　　(1) 服务器初始化启动。　　(2) 服务器运行期间无法和Leader保持连接。　　下面就两种情况进行分析讲解。　　1. 服务器启动时期的Leader选举

2017-04-13 20:18:41 976

转载 java 中常量池

ava中的常量池，实际上分为两种形态：静态常量池和运行时常量池。所谓静态常量池，即*.class文件中的常量池，class文件中的常量池不仅仅包含字符串(数字)字面量，还包含类、方法的信息，占用class文件绝大部分空间。而运行时常量池，则是jvm虚拟机在完成类装载操作后，将class文件中的常量池载入到内存中，并保存在方法区中，我们常说的常量池，就是指方法区中的运行时常

2017-04-12 19:29:43 234

原创 JVM运行时数据区

运行时数据区 java虚拟机定义了若干种程序运行时使用到的运行时数据区1.有一些是随虚拟机的启动而创建，随虚拟机的退出而销毁2.第二种则是与线程一一对应，随线程的开始和结束而创建和销毁。java虚拟机所管理的内存将会包括以下几个运行时数据区域 PC寄存器也叫程序计数器（Program Counter Register）是一块较小的内存空间，它的作

2017-04-09 20:59:03 258

原创 HashSet,TreeSet和LinkedHashSet的区别

HashSet,TreeSet和LinkedHashSet的区别Set接口Set不允许包含相同的元素，如果试图把两个相同元素加入同一个集合中，add方法返回false。Set判断两个对象相同不是使用==运算符，而是根据equals方法。也就是说，只要两个对象用equals方法比较返回true，Set就不会接受这两个对象。HashSetHashSet有以下特点 不

2017-03-27 21:34:43 255

转载 Spark调度模式-FIFO和FAIR

Spark中的调度模式主要有两种：FIFO和FAIR。默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等待前面的任务执行。而FAIR（公平调度）模式支持在调度池中为任务进行分组，不同的调度池权重不同，任务可以按照权重来决定执行顺序。对这两种调度模式的具体实现，接下来会根据spark-1.6.0的源码来进行详细的分析。使用哪种调度器由参数spark.schedu

2017-03-27 17:17:54 1416

转载 Java实现二叉树的遍历

目录： 1.把一个数组的值赋值给一颗二叉树 2.具体代码 1.树的构建方法 2.具体代码 Java代码 package tree; import java.util.LinkedList; import java.util.List; /** * 功能：把一个数组的值存入二叉树中，

2017-03-26 21:09:46 323

转载 Namenode HA原理详解（脑裂）

为什么要Namenode HA？1. NameNode High Availability即高可用。2. NameNode 很重要，挂掉会导致存储停止服务，无法进行数据的读写，基于此NameNode的计算（MR，Hive等）也无法完成。 Namenode HA 如何实现，关键技术难题是什么？1. 如何保持主和备NameNode的状态同步，并让Standby在

2017-03-25 21:33:05 615

原创 Java中符号引用和直接引用

在java中，一个java类将会编译成一个class文件。在编译时，java类并不知道引用类的实际内存地址，因此只能使用符号引用来代替。比如org.simple.People类引用org.simple.Tool类，在编译时People类并不知道Tool类的实际内存地址，因此只能使用符号org.simple.Tool(假设)来表示Tool类的地址。而在类装载器装载People类时，此时可以通过虚拟机

2017-03-22 17:33:38 964

原创 Java堆、栈和常量池以及相关String的详细讲解

Java堆、栈和常量池以及相关String的详细讲解博客分类： Java综合一：在JAVA中，有六个不同的地方可以存储数据： 1. 寄存器（register）。这是最快的存储区，因为它位于不同于其他存储区的地方——处理器内部。但是寄存器的数量极其有限，所以寄存器由编译器根据需求进行分配。你不能直接控制，也不能在程序中感觉到寄存器存在的任何迹象。 ------

2017-03-22 17:06:05 590

原创 Java中的堆、栈和常量池

说到java中堆、栈和常量池，首先还是看看他们各自存放的数据类型吧！堆：存放所有new出来的对象；栈：存放基本类型的变量数据和对象的应用，对象（new出来的对象）本身并不存在栈中，而是存放在堆中或者常量池中（字符串常量对象存放在常量池中）；常量池：存放基本类型常量和字符串常量。对于栈和常量池中的对象可以共享，对于堆中的对象不可以共享。栈中的数据大小和生命周期是可以确定的，当没有引

2017-03-22 17:02:39 936

原创类的加载流程

类从加载到虚拟机到卸载，它的整个生命周期包括：加载（Loading），验证（Validation），准备（Preparation），解析（Resolution），初始化（Initialization），使用（Using）和卸载（Unloading）。其中，验证、准备和解析部分被称为连接（Linking）。加载：在加载阶段，虚拟机主要完成三件事：1.通

2017-03-20 17:21:26 239

原创聚集索引与非聚集索引

聚集索引　　一种索引，该索引中键值的逻辑顺序决定了表中相应行的物理顺序。　　聚集索引确定表中数据的物理顺序。聚集索引类似于电话簿，后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序，因此一个表只能包含一个聚集索引。但该索引可以包含多个列（组合索引），就像电话簿按姓氏和名字进行组织一样。　　　　　　　　聚集索引对于那些经常要搜索范围值的列特别有效。使用聚集索引找到包

2017-03-15 21:58:27 255

原创字典管理表空间与本地管理表空间

字典管理表空间将Oracle的区管理信息存放在表空间的字典中进行管理，所有区的分配与释放，都会使字典的记录的增减变动。也就是在字典的记录中会执行更新、插入、删除操作，在执行上述操作时，都会生成重做日志，对字典的管理，将影响正常操作的效率，并且在区分配、回收的过程中，产生磁盘碎片，如果磁盘碎片增加到一定的程度，会浪费空间，严重影响效率,同时，Oracle 在管理表空

2017-03-15 21:39:40 448

原创数据中的自然连接、内连接、外连接

数据库中的内连接、自然连接、外连接数据中的连接join分为内连接、自然连接、外连接，外连接又分为左外连接、右外连接、全外连接。当然，这些分类都是在连接的基础上，是从两个表中记录的笛卡尔积中选取满足连接的记录。笛卡尔积简单的说就是一个表里的记录要分别和另外一个表的记录匹配为一条记录，即如果表A有3条记录，表B也有三条记录，经过笛卡尔运算之后就应该有3*3即9条记录。如下表：

2017-03-12 19:46:38 847

原创数据库系统的三级模式视图和表的区别和联系

数据库系统的三级模式是概念模式、外模式和内模式。概念模式是数据库系统中全局数据逻辑结构的描述，是全体用户公共数据视图。外模式也称子模式或用户模式，它是用户的数据视图，给出了每个用户的局部数据描述。内模式又称物理模式，它给出了数据库物理存储结构与物理存取方法。视图和表的区别和联系区别：1、视图是已经编译好的sql语句。而表不是 2、视图没有实际的物理记录。而

2017-03-12 19:11:30 9306

原创 Hadoop生态的四层架构以及大数据技术发展五大演进趋势

大数据技术发展五大演进趋势• 混合架构将消失• 固态硬盘将替代内存作为缓存• 实时大数据技术得到关注• 云计算拥抱大数据• 存储统一化

2017-03-11 21:20:02 4172

空空如也

空空如也