翔飞天宇-优快云博客

原创 Spark算子系列文章

Spark算子：RDD基本转换操作(1)–map、flagMap、distinctSpark算子：RDD创建操作Spark算子：RDD基本转换操作(2)–coalesce、repartitionSpark算子：RDD基本转换操作(3)–randomSplit、glomSpark算子：RDD基本转换操作(4)–union、intersection、subtract

2016-12-27 14:40:12 1587

原创 hbase集群中的从节点的Hregionserver进程出现闪退现象解决办法

2018-01-16 13:23:38,879 INFO [main] ipc.SimpleRpcScheduler: Using default user call queue, count=202018-01-16 13:23:38,890 ERROR [main] regionserver.HRegionServerCommandLine: Region server exiting

2018-01-16 13:37:26 1949

原创 java.io.IOException: No space left on device

java.io.IOException: No space left on device 错误今天碰到比较奇怪的问题： INFO util.Utils: Fetching http://192.168.31.160:33039/jars/spark_study_java-0.0.1-SNAPSHOT-jar-with-dependencies.jar to /tmp/spark-4

2017-09-14 15:30:32 6849

原创 HBase scan setBatch和setCaching的区别

HBase的查询实现只提供两种方式：1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get）2、按指定的条件获取一批记录，scan方法（org.apache.Hadoop.Hbase.client.Scan）实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值得注意：1、scan可以通过s

2017-08-30 16:58:34 844

原创 [转]关于PreparedStatement.addBatch()方法

Statement和PreparedStatement的区别就不多废话了,直接说PreparedStatement最重要的addbatch()结构的使用.1.建立链接,(打电话拨号 ) Connection connection =getConnection();2.不自动 Commit (瓜子不是一个一个吃,全部剥开放桌子上,然后一口舔了)//

2017-08-30 13:21:29 1103

原创 [转]Spark与Pandas中DataFrame对比（详细）

PandasSpark工作方式单机single machine tool，没有并行机制parallelism不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数据延迟机制

2017-08-29 15:24:52 1819

转载 spark 基础知识- spark SQL专题

一、简介　　Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同，Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。在Spark内部，Spark SQL会能够用于做优化的信息比RDD API更多一些。Spark SQL如今有了三种不同的API：SQL语句、DataFrame API和最新的Dataset API。不过真正运行计算

2017-07-18 14:49:34 1132

转载 hbase bulk load相关源码简析之PutSortReducer、KeyValueSortReducer

转载请注明出处： http://blog.youkuaiyun.com/lonelytrooper/article/details/17040895PutSortReducer：[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序，并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2

2017-07-10 18:55:12 458

转载 hbase bulk load相关源码简析之HFileOutputFormat、LoadIncrementalHFiles

转载请注明出处： http://blog.youkuaiyun.com/lonelytrooper/article/details/17040895PutSortReducer：[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序，并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2

2017-07-10 18:53:49 974

转载 hbase bulk load 小实践及一些总结

转载请注明出处：http://blog.youkuaiyun.com/lonelytrooper/article/details/17042391很早就知道bulk load这个东西，也大致都清楚怎么回事，居然直到前几天才第一次实践... 这篇文章大致分为三个部分：1. 使用Hbase自带的importtsv工具2. 自己实现写mr生成hfile并加载3. bulk load本身及对依赖的

2017-07-10 18:52:22 2390

原创 HBase性能优化方法总结

本文主要是从Hbase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关hbase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直

2017-07-07 18:03:23 687

原创 MapReduce生成HFile入库到HBase

一、这种方式有很多的优点：1. 如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入

2017-07-06 20:30:30 2386

转载 java clone方法使用详解

Java语言的一个优点就是取消了指针的概念，但也导致了许多程序员在编程中常常忽略了对象与引用的区别，特别是先学c、c++后学java的程序员。并且由于Java不能通过简单的赋值来解决对象复制的问题，在开发过程中，也常常要要应用clone（）方法来复制对象。比如函数参数类型是自定义的类时，此时便是引用传递而不是值传递。以下是一个小例子：Java代码 public class

2017-07-06 20:21:19 348

原创 Spark创建DataFrame和读取CSV数据文件

之前写的程序中，有些API在Spark SQLContext没有，我计算的结果先保存在rdd中，最后在使用RDD转换成dataframe进行保存，话不多说下面是代码.//一个StruceField你可以把它当成一个特征列。分别用列的名称和数据类型初始化 val structFields = List(StructField("age",DoubleType),StructField("h

2017-06-20 20:07:52 4803

转载 Spark DataFrames入门指南：创建和操作DataFrame

一、从csv文件创建DataFrame　　本文将介绍如何从csv文件创建DataFrame。如何做？　　从csv文件创建DataFrame主要包括以下几步骤：　　1、在build.sbt文件里面添加spark-csv支持库；　　2、创建SparkConf对象，其中包括Spark运行所有的环境信息；　　3、创建SparkContext对象，它是进入Spark的核心切入点，

2017-06-20 17:32:16 907

转载 Spark Streaming中的操作函数分析

根据Spark官方文档中的描述，在Spark Streaming应用中，一个DStream对象可以调用多种操作，主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func)　　map操作需要传入一个函数当做参数，具体调用形式为val b

2017-06-20 15:53:06 341

转载浅析Apache Spark Caching和Checkpointing

Apache Spark应用开发中，内存管理是最重要的人物之一，但cacheing和checkpointing之间的差异可能会导致混乱。这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。然而他们之间的区别是什么呢？fengmian.pngCachingcache 机制保证了需要访问重复数据的应用（如迭代型算法

2017-06-16 18:11:36 469

转载 Spark多文件输出(MultipleTextOutputFormat)

因为Spark内部写文件方式其实调用的都是Hadoop那一套东西，所以我们也可以通过Spark实现多文件输出。不过遗憾的是，Spark内部没有多文件输出的函数供大家直接调用，值得欣慰的是，我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可，代码如下：[plain] view plain copy

2017-06-16 18:10:29 2410

原创 Java实现正则匹配出script标签中字符串包含某个几个单词的所有行，以及编码转换

/*取得script下面的JS变量*/ Elements scriptinfo = document.getElementsByTag("script").eq(21); List list=new ArrayList(); Map PopWindowInfo = new LinkedHashMap(); /*循环遍

2017-03-24 16:53:17 1907

原创 Java实现Unicode码转为中文

java里如何把\u8BA8\u8BBA\u533A这种编码转换成中文package com.util.prop;public class Unicode2CN { /** * @Author:HaoMing(郝明) * @Project_name:checkface * @Full_path:com.util.prop.Unicode2CN.java * @Date:@201

2017-03-24 16:49:09 5684

转载万能的林萧说：一篇文章教会你，如何做到招聘要求中的“要有扎实的Java基础”。

来历　　　　本文来自于一次和群里猿友的交流，具体的情况且听LZ慢慢道来。　　一日，LZ在群里发话，“招人啦。”　　然某群友曰，“群主，俺想去。”　　LZ回之，“你年几何？”　　群友曰，“两年也。”　　LZ憾言之，“惜了，三至五为佳。然如汝有扎实之基础，且附一技之长，倒也并非不可呀。”　　群友惑，问之，“何为一技之长？”　　LZ抚须答曰，“皆可，吾之一技即为写。”

2017-03-24 16:46:00 387

转载回答阿里社招面试如何准备，顺便谈谈对于Java程序猿学习当中各个阶段的建议

回答阿里社招面试如何准备，顺便谈谈对于Java程序猿学习当中各个阶段的建议引言　　　　其实本来真的没打算写这篇文章，主要是LZ得记忆力不是很好，不像一些记忆力强的人，面试完以后，几乎能把自己和面试官的对话都给记下来。LZ自己当初面试完以后，除了记住一些聊过的知识点以外，具体的内容基本上忘得一干二净，所以写这篇文章其实是很有难度的。　　但是，最近问LZ的人实在是太多了，为了避免重

2017-03-24 16:42:51 354

原创一句话说清楚什么是闭包函数

题记：闭包是许多语言都支持的特性，像javascript，lua等。对闭包函数有所了解的童鞋可能都会感叹闭包函数似乎做到了其他普通函数未能做到的事情。普通函数内部可以直接读取全局变量。如： local n = 1function f1( ... ) return nendprint(f1()) --1 但普通函数内部却无

2017-02-13 13:22:20 603

转载 Spark 2.0介绍：从RDD API迁移到DataSet API

RDD迁移到DataSetDataSet API将RDD和DataFrame两者的优点整合起来，DataSet中的许多API模仿了RDD的API，虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中，下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。1、加载文件RDDval rdd = sparkCont

2017-01-23 18:44:58 415

转载 spark 输出结果压缩（gz）

如果不想往下看，可以直接看结果：maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩，没错。就只这么一行简单的代码实现了gz压缩，但是为什么网上一直没找到呢，这个我不太清楚，可能是他们没碰到吧。最近项目的需求，其实很简单，就是将输出结果以.gz的格式压缩，每个压缩包的大小不能超过100M,而且压缩包的名称也

2017-01-23 11:18:55 4695

原创 HIVE 语句执行中报错：Java heap space

1、报错信息Diagnostic Messages for this Task:Error: Java heap spaceFAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask2、根据提示加大了 HADOOP_HEAP 设置，但是错误依旧；3、

2017-01-23 11:13:40 2842

原创如何使用shell从一个文件中取出不在另一个文件中的内容

本文展示如何利用shell从一个文件中，（按行）找出不在另一个文件中的内容。#!/bin/bash#@filename checkAddWord.sh#allword.txt 存放总词库（每行一个）#newword.txt 存放新增词（每行一个）#newword.add.txt 在cygwin中执行sh checkAddWord.

2017-01-23 11:05:02 3273

原创 hive中数据去重，union，交集和并集等操作语句总结

insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn from sto

2017-01-23 10:59:25 23780

转载 Spark: sortBy和sortByKey函数详解

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进

2016-12-30 09:53:50 2155

原创 spark中的cache() persist() checkpoint()之间的区别

cache()与persist()：会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory，写磁盘的话那就叫 checkpoint 了。哪些 RDD 需要 checkpoint？运算时间很长或运算量太大才能得到的 RDD，computing chain 过长或依赖其他 RDD 很多的 RDD。实际上，将 ShuffleMapTask 的输出结果存放到本地磁盘

2016-12-27 17:51:54 16104 4

转载 Spark RDD、DataFrame和DataSet的区别

转自：http://blog.youkuaiyun.com/wo334499/article/details/51689549 RDD优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性

2016-12-27 15:58:36 734

转载 Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

关键字：Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对。scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2

2016-12-27 14:29:37 1746

转载 Spark算子：RDD基本转换操作(6)–zip、zipPartitions

关键字：Spark算子、Spark RDD基本转换、zip、zipPartitionszipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。scala> va

2016-12-27 14:24:05 661

转载 Spark算子：RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

关键字：Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndexmapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U])

2016-12-27 13:55:16 717

转载 Spark算子：RDD基本转换操作(4)–union、intersection、subtract

关键字：Spark算子、Spark RDD基本转换、union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int]

2016-12-27 13:44:18 7196

转载 Spark算子：RDD基本转换操作(3)–randomSplit、glom

关键字：Spark算子、Spark RDD基本转换、randomSplit、glomrandomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组第

2016-12-27 13:34:53 1522

转载 Spark算子：RDD基本转换操作(2)–coalesce、repartition

关键字：Spark算子、Spark RDD基本转换、coalesce、repartitioncoalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区，使用HashPartitioner。第一个参数

2016-12-27 13:20:43 988

转载 Spark算子：RDD基本转换操作(1)–map、flagMap、distinct

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HD

2016-12-27 11:48:58 1288

转载 Spark算子：统计RDD分区中的元素及数量

关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于m

2016-12-26 17:48:33 1709

转载 Spark算子：RDD创建操作

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli

2016-12-26 17:39:41 757

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

FSM-H_Frequent Subgraph Mining Algorithm in Hadoop

CAAC_A Key-Value Database Performance Boosting Algorithm

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

空空如也