
Spark
ZenGeek
代码乃需求之腿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark实战(1) 配置AWS EMR 和Zeppelin Notebook
SparkContext和SparkSession的区别,如何取用? SparkContext: 在Spark 2.0.0之前使用 通过资源管理器例如YARN来连接集群 需要传入SparkConf来创建SparkContext对象 如果要使用SQL,HIVE或者Streaming的API, 需要创建单独的Context val conf = new SparkConf() .setA...原创 2018-10-31 17:40:41 · 1377 阅读 · 0 评论 -
Spark实战(2) DataFrame基础之创建DataFrame
之前,RDD语法占主导,但是比较难用难学. 现在,有了DataFrame,更容易操作和使用spark. 文章目录创建DataFrame创建DataFrame(指定Schema) 创建DataFrame from pyspark.sql import SparkSession # 新建一个session spark = SparkSession.builder.appName('Basics')...原创 2018-10-31 18:15:22 · 878 阅读 · 0 评论 -
Spark实战(3) DataFrame基础之行列操作和SQL
文章目录行列操作SQL操作 行列操作 df['age'] # I only get a column object df.select('age').show() # I get a datafram with a column that we could use with show() method # see the first two row elements df.head(2) # r...原创 2018-10-31 18:40:59 · 846 阅读 · 0 评论 -
Spark实战(4) DataFrame基础之数据筛选
文章目录filter写法一filter写法二条件符号获取结果 filter写法一 from pyspark.sql import SparkSession spark = SparkSession.builder.appName('ops').getOrCreate() df = spark.read.csv('appe_stock.csv',inferSchema = True, heade...原创 2018-10-31 19:09:39 · 10473 阅读 · 0 评论 -
Spark实战(5) DataFrame基础之GroupBy和Aggregate
文章目录groupBy()AggregationAggregation Function groupBy() from pyspark.sql import SparkSession spark = SparkSession.builder.appName('aggs').getOrCreate() df = spark.read.csv('sales_info.csv', inferSche...原创 2018-10-31 19:54:26 · 8073 阅读 · 0 评论 -
Spark实战(5) DataFrame基础之处理缺失值
Drop Missing Value from pyspark.sql import SparkSession spark = SparkSession.builder.appName('aggs').getOrCreate() df = spark.read.csv('sales_info.csv', inferSchema = True, header = True) df.printSche...原创 2018-10-31 21:37:51 · 8550 阅读 · 1 评论 -
Spark之RDD操作
// 读取文件,压缩文件和路径都可以 val lines = sc.textFile("hdfs://localhost:9000/...") // hdfs val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt") // local // 从driver的内存中读取 val array = Ar...原创 2018-11-01 08:00:10 · 287 阅读 · 0 评论