- 博客(23)
- 收藏
- 关注
转载 spark系列二:jdbc数据源实例
Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark Core提供的各种算子进行处理。 这里有一个经验之谈,实际上用...
2019-07-12 19:42:08
212
转载 spark系列一:共享变量(broadcast和accumulator)
spark一个重要的特性就是共享变量:共享变量原理:默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享...
2019-06-30 22:21:04
325
转载 python实例方法、类方法和静态方法的区别
python实例方法、类方法和静态方法的区别 首先看一个实例,类A中的方法依次是实例方法、类方法和静态方法 class A(object): ...
2019-06-03 10:30:05
211
转载 spark系列二:sparkcore和sparksql综合案例
数据格式:日期 用户 搜索词 城市 平台 版本 需求:1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序...
2019-05-23 18:18:05
578
转载 hadoop启动时,报ssh: Could not resolve hostname xxx: Name or service not known
错误信息: [root@master hadoop]# sbin/start-dfs.sh warnning classes where applicable Starting namenodes...
2019-05-21 08:12:05
11177
转载 spark系列一:使用持久化机制和不使用持久化的原理及实战
rdd持久化原理:rdd可以持久化到内存,当对dd执行持久化操作时,每个节点都会将自己的操作的rdd的parition持久化到内存中,并且在之后对该rdd的反复使用中,直接使用内存缓存的partition,这样对于一个反复执...
2019-05-20 17:51:04
320
转载 spark系列一:wordcount程序原理剖析及spark架构原理
wordcount程序原理剖析:wordcount程序原理深度剖析.pngspark架构原理:Spark架构原理.png ...
2019-05-10 11:30:06
319
转载 spark系列一:transaction和action介绍
spark支持两种RDD操作,transaction和action。transaction操作是对已有的RDD创建一个新的RDD;而action操作主要是正对RDD做最后的操作,比如遍历、reduce、保存到文件等,并可以...
2019-05-07 12:03:05
1051
转载 spark系列二:sparksql dataframe常用操作
使用json文件创建 dataframe演示常用操作java版本: package cn.spark.study.core; import org.apache.spark.SparkConf;imp...
2019-05-07 08:18:05
166
转载 spark系列三:sparkstreaming之输入DStream之Kafka数据源实战(基于Direct的方式)
基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+partition的最新的offs...
2019-05-04 10:36:04
289
转载 spark系列一:内核架构及宽窄依赖及提交模式分析
1、内核架构Spark内核架构深度剖析.png2、宽窄依赖划分:.png3、提交模式:YARN的两种提交模式深度剖析.png ...
2019-04-24 11:33:05
106
转载 spark系列一:transaction操作实战
1、算子实战: package cn.spark.study.core; import java.util.Arrays;import java.util.Iterator;import...
2019-04-10 19:06:06
279
转载 spark系列二:load和save
对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFra...
2019-03-31 09:57:05
433
转载 spark系列二:parquet数据源之自动合并元数据
+--------+----+-----+ 如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持元数据合并的。用户可以在一开始就定义一个简单的元数据,然后随着业务需要,逐渐往元数据中添加更...
2019-03-26 11:21:05
288
转载 spark系列三:sparkstreaming基于hdfs实时wordcount案例
HDFS文件基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。 streamingContext.fileStream<KeyCla...
2019-03-20 21:51:05
189
转载 spark系列二:parquet数据源之自动分区推断
表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录...
2019-03-17 09:12:07
224
转载 spark系列一:wordcount程序排序
要求对统计的单词的次数降序排列:java版本: package cn.spark.study.core; import java.util.Arrays; import org.apache....
2019-03-04 17:06:07
209
转载 spark系列二:开窗函数实例
Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。 package cn.spark.stud...
2019-02-22 19:18:06
437
转载 spark系列一:java和scala及spark-shell开发wordcount程序
spark学习记录,希望能坚持下去环境:centos6.5+spark1.3+hadoop2.4.11、代码开发:package cn.spark.study.core; import java.u...
2019-02-18 19:06:04
242
转载 spark系列二:parquet数据源常用操作之使用编程方式加载数据
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储和行式存储相比有哪...
2019-02-15 15:42:06
174
转载 spark系列二:sparksql内置函数实例
在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column...
2019-02-01 09:36:05
180
转载 spark系列一:二次排序diy
创建secondarysort对象package cn.spark.study.core;import scala.Serializable; public class secondary...
2019-01-17 09:51:04
72
转载 spark系列一:action操作开发实战
实例代码:1、java版本: package cn.spark.study.core; import java.util.Arrays;import java.util.List;import j...
2018-12-29 21:51:05
104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人