Spark2.3.1 Quick Start

本文介绍了Spark 2.3.1中Dataset API的使用方法及其相对于RDDs的优势。从2.0开始,Dataset接口取代了RDDs成为主要编程接口,并进行了大量优化。文章还提到了如何进行数据操作、缓存策略及自包含应用的概念。

Spark 2.3.1的编程指导内容如下:

Quick Start

Spark2.0前Spark主要编程接口是RDDs,2.0之后,RDDs接口被Dataset接口取代,Dataset和RDDs一样是强类型,但是底层做了大量优化。RDDs接口仍然可用,但是强烈推荐转换使用Dataset,性能比RDDs好

Spark Shell

基础

bin/spark-shell

Dataset操作

transformations

actions

缓存Caching

cache()是persist(StorageLevel.MEMORY_ONLY)的简写

persist(StorageLevel.MEMORY_ONLY)等

自包含应用

self-contained application consists of a single, installable bundle that contains your application and a copy of the JRE needed to run the application. When the application is installed, it behaves the in the same way as any native application.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值