spark
一只kaokaola
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【第二天】Spark SQL
DataFrame与RDD的区别DataFrame select、filter的使用说明 //隐式转换必须加上,如果不加,第二种、第三种就会报错 import spark.implicits._ //第一种方式 moviesDF.select("title") //第二种方式 moviesDF.select($"title&a原创 2019-04-24 17:06:33 · 198 阅读 · 0 评论 -
Spark之RDD
rdd的描述/** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. This class cont...原创 2019-04-24 17:05:56 · 165 阅读 · 0 评论 -
sparkstreaming+kafka教程与实战
Receiver方式这种方式是在executor上启动一个receiver进程,固定时间间隔拉取一定的数据到内存中,再进行计算,这样会导致内存溢出,随着发展,当数据量到达一定的阀值会save data to WAL也就是会写入磁盘中。Receive方式会自动保存offset到zk中,Direct方式直接连接到kafka的分区上,效率高,不会自动维护偏移量,需要自己维护偏移量offset...原创 2019-04-24 17:05:04 · 210 阅读 · 0 评论 -
Spark SQL外部数据源
外部数据源package com.kaola.bigdata.sparksql03import org.apache.spark.sql.SparkSessionobject DataSourceAPIApp { def main(args: Array[String]): Unit = { val spark = SparkSession .builder(...原创 2019-04-24 17:04:10 · 550 阅读 · 0 评论 -
spar core 05
sequenceFileval seqRDD = sc.sequenceFile[BytesWritable,String]("path")泛型主要采用BytesWritable序列化Java serialization速度慢,支持所有序列化类型Kyro serialization速度快,不是支持所有的序列化类型 val conf = new SparkConf().se...原创 2019-04-24 17:03:40 · 139 阅读 · 0 评论 -
spark源码编译
源码下载两种方式通过官网下载源码相对简单的方式下载spark-2.4.0.tgz通过github进行源码下载采用这种方式方便后续的跟踪git clone https://github.com/apache/spark.gitgit branch -vgit checkout 指定版本之后就可以通过git pull将代码更新下来源码编译过程1、选择buildin...原创 2019-04-24 17:00:03 · 278 阅读 · 0 评论 -
scala基于IDEA的spark编程
1.创建maven项目2.pom.xml设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:...原创 2019-04-08 14:34:32 · 252 阅读 · 0 评论 -
spark sql 05
hive元数据metastore主要存储在mysql数据库中DBS表:存的是数据库信息VERSION表:版本,只有一条数据才能启动hiveTBLS表:存储的表的信息 DB_ID关联TABLE_PARAMS表:TBL_ID关联,存储表的配置信息COLUMNS_V2表:列信息PARTITIONS表:分区信息表与表之间都会有关联join默认情况下,hive的join为Comm...原创 2019-04-08 14:33:45 · 142 阅读 · 0 评论 -
scala教程
scala第一天学习你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。scala常用版本与开发工具常用版本为2.11.8开发工具采用IDEA基于idea的scala项目开发在pom.xml中将依赖的版本号进行封装&amp;amp;lt;scala.version&amp;amp;gt;...原创 2019-03-15 18:04:51 · 808 阅读 · 0 评论 -
堆内内存和堆外内存的区别,以及spark使用get_json_object函数引发的问题
堆内内存堆外内存和堆内内存是相对的二个概念,其中堆内内存是我们平常工作中接触比较多的,我们在jvm参数中只要使用-Xms,-Xmx等参数就可以设置堆的大小和最大值,理解jvm的堆还需要知道下面这个公式:堆内内存 = 新生代+老年代+持久代常见的垃圾回收算法主要有:引用计数器法(Reference Counting)标记清除法(Mark-Sweep)复制算法(Coping)标记...原创 2019-09-18 09:55:39 · 1137 阅读 · 1 评论
分享