- 博客(221)
- 资源 (6)
- 收藏
- 关注

原创 Spark算子系列文章
Spark算子:RDD基本转换操作(1)–map、flagMap、distinctSpark算子:RDD创建操作Spark算子:RDD基本转换操作(2)–coalesce、repartitionSpark算子:RDD基本转换操作(3)–randomSplit、glomSpark算子:RDD基本转换操作(4)–union、intersection、subtract
2016-12-27 14:40:12
1587
原创 hbase集群中的从节点的Hregionserver进程出现闪退现象解决办法
2018-01-16 13:23:38,879 INFO [main] ipc.SimpleRpcScheduler: Using default user call queue, count=202018-01-16 13:23:38,890 ERROR [main] regionserver.HRegionServerCommandLine: Region server exiting
2018-01-16 13:37:26
1949
原创 java.io.IOException: No space left on device
java.io.IOException: No space left on device 错误今天碰到比较奇怪的问题: INFO util.Utils: Fetching http://192.168.31.160:33039/jars/spark_study_java-0.0.1-SNAPSHOT-jar-with-dependencies.jar to /tmp/spark-4
2017-09-14 15:30:32
6849
原创 HBase scan setBatch和setCaching的区别
HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)2、按指定的条件获取一批记录,scan方法(org.apache.Hadoop.Hbase.client.Scan)实现条件查询功能使用的就是scan方式,scan在使用时有以下几点值得注意:1、scan可以通过s
2017-08-30 16:58:34
844
原创 [转]关于PreparedStatement.addBatch()方法
Statement和PreparedStatement的区别就不多废话了,直接说PreparedStatement最重要的addbatch()结构的使用.1.建立链接,(打电话拨号 ) Connection connection =getConnection();2.不自动 Commit (瓜子不是一个一个吃,全部剥开放桌子上,然后一口舔了)//
2017-08-30 13:21:29
1103
原创 [转]Spark与Pandas中DataFrame对比(详细)
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据延迟机制
2017-08-29 15:24:52
1819
转载 spark 基础知识- spark SQL专题
一、简介 Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同,Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。在Spark内部,Spark SQL会能够用于做优化的信息比RDD API更多一些。Spark SQL如今有了三种不同的API:SQL语句、DataFrame API和最新的Dataset API。不过真正运行计算
2017-07-18 14:49:34
1132
转载 hbase bulk load相关源码简析之PutSortReducer、KeyValueSortReducer
转载请注明出处: http://blog.youkuaiyun.com/lonelytrooper/article/details/17040895PutSortReducer:[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序,并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2
2017-07-10 18:55:12
458
转载 hbase bulk load相关源码简析之HFileOutputFormat、LoadIncrementalHFiles
转载请注明出处: http://blog.youkuaiyun.com/lonelytrooper/article/details/17040895PutSortReducer:[java] view plain copy // 对map阶段传递过来的puts中的KVs做排序,并将有序的KVs写到输出流(最终写的类是HFileWriterV1或HFileWriterV2
2017-07-10 18:53:49
974
转载 hbase bulk load 小实践及一些总结
转载请注明出处:http://blog.youkuaiyun.com/lonelytrooper/article/details/17042391很早就知道bulk load这个东西,也大致都清楚怎么回事,居然直到前几天才第一次实践... 这篇文章大致分为三个部分:1. 使用Hbase自带的importtsv工具2. 自己实现写mr生成hfile并加载3. bulk load本身及对依赖的
2017-07-10 18:52:22
2390
原创 HBase性能优化方法总结
本文主要是从Hbase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关hbase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直
2017-07-07 18:03:23
687
原创 MapReduce生成HFile入库到HBase
一、这种方式有很多的优点:1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。2. 它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入
2017-07-06 20:30:30
2386
转载 java clone方法使用详解
Java语言的一个优点就是取消了指针的概念,但也导致了许多程序员在编程中常常忽略了对象与引用的区别,特别是先学c、c++后学java的程序员。并且由于Java不能通过简单的赋值来解决对象复制的问题,在开发过程中,也常常要要应用clone()方法来复制对象。比如函数参数类型是自定义的类时,此时便是引用传递而不是值传递。以下是一个小例子:Java代码 public class
2017-07-06 20:21:19
348
原创 Spark创建DataFrame和读取CSV数据文件
之前写的程序中,有些API在Spark SQLContext没有,我计算的结果先保存在rdd中,最后在使用RDD转换成dataframe进行保存,话不多说下面是代码.//一个StruceField你可以把它当成一个特征列。分别用列的名称和数据类型初始化 val structFields = List(StructField("age",DoubleType),StructField("h
2017-06-20 20:07:52
4803
转载 Spark DataFrames入门指南:创建和操作DataFrame
一、从csv文件创建DataFrame 本文将介绍如何从csv文件创建DataFrame。如何做? 从csv文件创建DataFrame主要包括以下几步骤: 1、在build.sbt文件里面添加spark-csv支持库; 2、创建SparkConf对象,其中包括Spark运行所有的环境信息; 3、创建SparkContext对象,它是进入Spark的核心切入点,
2017-06-20 17:32:16
907
转载 Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作需要传入一个函数当做参数,具体调用形式为val b
2017-06-20 15:53:06
341
转载 浅析Apache Spark Caching和Checkpointing
Apache Spark应用开发中,内存管理是最重要的人物之一,但cacheing和checkpointing之间的差异可能会导致混乱。这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。然而他们之间的区别是什么呢?fengmian.pngCachingcache 机制保证了需要访问重复数据的应用(如迭代型算法
2017-06-16 18:11:36
469
转载 Spark多文件输出(MultipleTextOutputFormat)
因为Spark内部写文件方式其实调用的都是Hadoop那一套东西,所以我们也可以通过Spark实现多文件输出。不过遗憾的是,Spark内部没有多文件输出的函数供大家直接调用,值得欣慰的是,我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可,代码如下:[plain] view plain copy
2017-06-16 18:10:29
2410
原创 Java实现正则匹配出script标签中字符串包含某个几个单词的所有行,以及编码转换
/*取得script下面的JS变量*/ Elements scriptinfo = document.getElementsByTag("script").eq(21); List list=new ArrayList(); Map PopWindowInfo = new LinkedHashMap(); /*循环遍
2017-03-24 16:53:17
1907
原创 Java实现Unicode码转为中文
java里如何把\u8BA8\u8BBA\u533A这种编码转换成中文package com.util.prop;public class Unicode2CN { /** * @Author:HaoMing(郝明) * @Project_name:checkface * @Full_path:com.util.prop.Unicode2CN.java * @Date:@201
2017-03-24 16:49:09
5684
转载 万能的林萧说:一篇文章教会你,如何做到招聘要求中的“要有扎实的Java基础”。
来历 本文来自于一次和群里猿友的交流,具体的情况且听LZ慢慢道来。 一日,LZ在群里发话,“招人啦。” 然某群友曰,“群主,俺想去。” LZ回之,“你年几何?” 群友曰,“两年也。” LZ憾言之,“惜了,三至五为佳。然如汝有扎实之基础,且附一技之长,倒也并非不可呀。” 群友惑,问之,“何为一技之长?” LZ抚须答曰,“皆可,吾之一技即为写。”
2017-03-24 16:46:00
387
转载 回答阿里社招面试如何准备,顺便谈谈对于Java程序猿学习当中各个阶段的建议
回答阿里社招面试如何准备,顺便谈谈对于Java程序猿学习当中各个阶段的建议引言 其实本来真的没打算写这篇文章,主要是LZ得记忆力不是很好,不像一些记忆力强的人,面试完以后,几乎能把自己和面试官的对话都给记下来。LZ自己当初面试完以后,除了记住一些聊过的知识点以外,具体的内容基本上忘得一干二净,所以写这篇文章其实是很有难度的。 但是,最近问LZ的人实在是太多了,为了避免重
2017-03-24 16:42:51
354
原创 一句话说清楚什么是闭包函数
题记:闭包是许多语言都支持的特性,像javascript,lua等。对闭包函数有所了解的童鞋可能都会感叹闭包函数似乎做到了其他普通函数未能做到的事情。 普通函数内部可以直接读取全局变量。如: local n = 1function f1( ... ) return nendprint(f1()) --1 但普通函数内部却无
2017-02-13 13:22:20
603
转载 Spark 2.0介绍:从RDD API迁移到DataSet API
RDD迁移到DataSetDataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。1、加载文件RDDval rdd = sparkCont
2017-01-23 18:44:58
415
转载 spark 输出结果压缩(gz)
如果不想往下看,可以直接看结果:maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚, 可能是他们没碰到吧。 最近项目的需求,其实很简单,就是将输出结果以.gz的格式压缩,每个压缩包的大小不能超过100M,而且压缩包的名称也
2017-01-23 11:18:55
4695
原创 HIVE 语句执行 中报错:Java heap space
1、报错信息Diagnostic Messages for this Task:Error: Java heap spaceFAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask2、根据提示加大了 HADOOP_HEAP 设置,但是错误依旧;3、
2017-01-23 11:13:40
2842
原创 如何使用shell从一个文件中取出不在另一个文件中的内容
本文展示如何利用shell从一个文件中,(按行)找出不在另一个文件中的内容。#!/bin/bash#@filename checkAddWord.sh#allword.txt 存放总词库(每行一个)#newword.txt 存放新增词(每行一个)#newword.add.txt 在cygwin中执行sh checkAddWord.
2017-01-23 11:05:02
3273
原创 hive中数据去重,union,交集和并集等操作语句总结
insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn from sto
2017-01-23 10:59:25
23780
转载 Spark: sortBy和sortByKey函数详解
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进
2016-12-30 09:53:50
2155
原创 spark中的cache() persist() checkpoint()之间的区别
cache()与persist():会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,写磁盘的话那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD。 实际上,将 ShuffleMapTask 的输出结果存放到本地磁盘
2016-12-27 17:51:54
16104
4
转载 Spark RDD、DataFrame和DataSet的区别
转自:http://blog.youkuaiyun.com/wo334499/article/details/51689549 RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性
2016-12-27 15:58:36
734
转载 Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId
关键字:Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对。scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2
2016-12-27 14:29:37
1746
转载 Spark算子:RDD基本转换操作(6)–zip、zipPartitions
关键字:Spark算子、Spark RDD基本转换、zip、zipPartitionszipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。scala> va
2016-12-27 14:24:05
661
转载 Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
关键字:Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndexmapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U])
2016-12-27 13:55:16
717
转载 Spark算子:RDD基本转换操作(4)–union、intersection、subtract
关键字:Spark算子、Spark RDD基本转换、union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int]
2016-12-27 13:44:18
7196
转载 Spark算子:RDD基本转换操作(3)–randomSplit、glom
关键字:Spark算子、Spark RDD基本转换、randomSplit、glomrandomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重,将一个RDD切分成多个RDD。该权重参数为一个Double数组第
2016-12-27 13:34:53
1522
转载 Spark算子:RDD基本转换操作(2)–coalesce、repartition
关键字:Spark算子、Spark RDD基本转换、coalesce、repartitioncoalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数
2016-12-27 13:20:43
988
转载 Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HD
2016-12-27 11:48:58
1288
转载 Spark算子:统计RDD分区中的元素及数量
关键字:Spark算子、Spark RDD分区、Spark RDD分区元素数量Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于m
2016-12-26 17:48:33
1709
转载 Spark算子:RDD创建操作
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli
2016-12-26 17:39:41
757
A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining
2014-10-15
Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach
2014-10-15
Understanding Student Behaviors in Online Classroom_Data Scientific Approach
2014-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人