
spark
文章平均质量分 81
王义凯_Rick
如果对你有帮助,就请点个赞吧~
展开
-
SparkSQL中的Parquet存储格式总结
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了nullable。1. 读写Parquet文件2. 分区发现分区表时很...原创 2019-10-31 15:37:04 · 6808 阅读 · 0 评论 -
IgniteRDD学习笔记(一)
Ignite帮助spark实现了In-memory的RDD共享机制,本来的spark里每个job不能互相访问到RDD,而Apache Ignite很好的实现了这一点,之前有用过Tachyon,只实现了以文件的方式存储在内存中,和HDFS差不多,当其他的job需要读某个表的时候,仍旧需要将文件读进来然后注册成表才可以操作,这显然不是我想要的,当然也许是我没有掌握Tachyon的精髓就放弃掉了,下面来原创 2015-10-26 14:51:30 · 1411 阅读 · 0 评论 -
IgniteRDD学习笔记(二)IgniteContext和IgniteRDD
IgniteContext:IgniteContext是spark-ignite的主要实例,而创建IgniteContext需要SparkContext。IgniteContext会确保server和client端的IgniteNode存在每个参与job的实例。当创建Context的实例时,会传给Context构造函数一个boolean类型的值(默认为true),通常是用于部署安装。当原创 2015-10-26 15:00:56 · 1547 阅读 · 0 评论 -
IgniteRDD学习笔记(四)在SparkShell上部署测试IgniteRDD
启动服务1)下载Spark到每个节点2)下载Ignite到每个节点3)在Master节点进入$SPARK_HOME执行下面的脚本sbin/start-master.shmaster URL检查SPARK日志:spark://master_host:master_port Web UI url 检查SPARK日志:http://master_host:8080 4)在每个原创 2015-10-27 10:15:14 · 1906 阅读 · 0 评论 -
IgniteRDD学习笔记(五)缓存模式CacheMode
最近的项目里之前实现了用IgniteRDD共享SparkRDD,但性能却还不如直接处理hdfs文件来的快,代码里能把collect去掉的基本都取代了,最后从ignite着手,发现有个缓存模式,决定尝试一番。先附上官网上的缓存模式的介绍:缓存模式Ignite提供了三种不同的缓存操作模式,分区、复制和本地。缓存模型可以为每个缓存单独配置,缓存模型是通过CacheMode枚举定义的。原创 2015-12-04 13:16:31 · 6162 阅读 · 1 评论 -
SparkSQL学习笔记(一)DataFrame
Spark1.5.2版本简介:DataFrame是分布式数据和数据结构组成的组织集合,概念等同于关系型数据库里的表(dataframe.registerTempTable("tablename")注册内存表)。DataFrame的API支持Scala,java,Python,R。SQLContext:SparkSQL的所有方法都在SQLContext类或它的子类里,用S原创 2015-11-24 12:10:17 · 7980 阅读 · 0 评论 -
SparkSQL学习笔记(二)DataSource
简介:SparkSQL通过DataFrame接口支持处理各种数据源,df可以抽象为RDD或注册内存(临时)表处理,临时表可以通过SQL操作并返回一个结果df。Load/Save 方法:最简单的格式,默认为parquet(列式存储格式,自身包含表结构和表数据),可以在spark.sql.sources.default里配置。例:scalaval df = sqlCon原创 2015-11-24 13:18:50 · 11776 阅读 · 1 评论 -
IgniteRDD学习笔记(三)安装和部署
共享的部署意味着IgniteNodes独立于Spark程序和存储状态甚至sparkJob结束后。集群部署:IgniteNodes应该在每个Spark worker nodes里部署,支持环境:NameValueJDKOracle JDK 7 and aboveOS原创 2015-10-26 16:06:40 · 4847 阅读 · 0 评论