- 博客(9)
- 收藏
- 关注
原创 SparkSQL基本教程(二)
1 数据清洗案例学习目标:数据去重缺失值处理异常值处理学习内容:前面我们处理的数据实际上都是已经被处理好的规整数据,但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据。1数据去重'''1.删除重复数据groupby().count():可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'
2021-04-11 23:22:41
273
原创 SparkSQL基本教程(一)
1 JSON数据的处理学习目标了解Spark SQL处理JSON数据方式应用Spark SQL实现处理JSON数据案例1 Spark SQL 处理JSON数据介绍Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame加载JSON数据时如何处理DataFrame的schema1,通过反射自动推断,适合静态数据2,程序指定,适合程序运行中动态生成的数据加载json数据相关API介绍#使用内部的schemajsonDF = spark.read.
2021-04-11 23:17:27
218
原创 Spark DataFrame API练习与功能介绍
1 DataFrame API练习基于RDD创建from pyspark.sql import SparkSessionfrom pyspark.sql import Rowspark = SparkSession.builder.appName('test').getOrCreate()sc = spark.sparkContext# spark.conf.set("spark.sql.shuffle.partitions", 6)# ================直接创建=======
2021-04-07 00:13:54
294
原创 SparkDataFrame简单介绍带你轻松入门
1 SparkDataFrame1 DataFrame简介在Spark语义中,DataFrame是一个分布式的行集合,可以想象为一个关系型数据库的表,或者一个带有列名的Excel表格。它和RDD一样,有这样一些特点:Immuatable:一旦RDD、DataFrame被创建,就不能更改,只能通过transformation生成新的RDD、DataFrameLazy Evaluations:只有action才会触发Transformation的执行Distributed:DataFrame和RDD
2021-04-07 00:04:56
909
原创 Pyspark实战与广播变量broadcast的应用
1 Spark-core案例 IP统计学习目标应用RDD实现ip地址查询案例记忆广播变量的概念1 通过RDD实现ip地址查询需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。ip日志信息在ip日志信息中,我们只需要关心ip这一个维度就可以了,其他的不做介绍思路1、 加载
2021-04-06 23:50:50
4028
原创 超好用的Pysapark的PV,UV,TopN指标计算!
1.spark-core 案例_点击日志分析学习目标:应用Pycharm编写代码实现Word Count案例应用Spark RDD 实现点击日志分析案例1 Pycharm 编写Spark WordCount案例from pyspark.sql import SparkSessionif __name__ == '__main__': spark = SparkSession.build.appName("wc").getOrCreate() sc = spark.spark
2021-04-05 18:41:38
482
6
原创 Spark小白教程(三)
1 RDD常用算子练习学习目标 记忆RDD的三类算子 应用transformation算子进行数据处理 应用action算子进行数据处理
2021-04-01 22:39:03
137
原创 Spark小白教程(一)
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-04-01 22:15:11
126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人