
spark
kokopop007
高处不胜寒
展开
-
DataFrame&Dataset
#DataFrame产生背景 DataFrame不是spark sql提出的,而是早在R,Pandas语言就已经存在了。 #DataFrame概述 官网概述: A Dataset is a distributed collection of data 数据集是分布式数据集合 A DataFrame is a Dataset organized into named columns. DataFra...原创 2019-08-23 20:50:29 · 856 阅读 · 0 评论 -
外部数据源External Data Source API
产生背景 1.Every Spark application starts with loading data and ends with saving data 2.Loading and saving Data is not easy 3.Parse raw data:test/json/parquet 4.Convert data format transformation 5.Datase...原创 2019-08-23 21:47:51 · 663 阅读 · 0 评论 -
Spark SQL概述
官网概述: Spark SQL is Apache Spark’s module for working with structured data. Spark SQL是Apache Spark处理结构化数据的模块。Spark SQL不仅仅有访问和操作SQL的功能,还提供了其他的非常丰富的操作:外部数据源,优化。 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD ...原创 2019-08-21 20:56:24 · 147 阅读 · 0 评论