
spark
mid_python
一名热衷于web开发、爬虫技术、数据分析处理、AI领域的技术爱好者,也是一个乐于分享的作者。
展开
-
RDD
#使用文本文件做数据源sc = SparkContext.getOrCreate(conf)rows = sc.textFile("file:///Users/chuzhengkai/Desktop/test.txt")print(rows.first())print(rows.take(2))print(rows.count())print(rows.top(2))sc.stop(...原创 2018-05-13 13:42:40 · 274 阅读 · 0 评论 -
spark sql
# 航班数据分析实战# 1, 查看航班信息Schema# 2, 提取关注字段, 做航班信息简明情况报表# 3, 指定日期, 查询航班信息简报# 4, 分组查询, 按航班号分组, 查询延迟次数# 5, 分组查询, 按目的地机场分组, 查询延迟次数# 6, 聚合查询, 查询某天某机场到达航班总数量# 7, 聚合查询, 查询某天某机场到达航班平均延迟时间# 8, 分组聚合, 查询某机场...原创 2018-05-13 13:45:40 · 283 阅读 · 0 评论 -
数据可视化
#准备 pyspark 环境from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Rowfrom pyspark.sql import functions as func#创建应用程序实例和会话spark = SparkSession.builder\ .maste...原创 2018-05-13 13:58:19 · 492 阅读 · 0 评论 -
数据整理
数据分析之数据整理1, 数据表合并与空值处理2, 重复值与异常值处理3, 增加与修改列4, 数据采样与描述性统计#准备 pyspark 环境from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Row#创建应用程序实例和会话spark = SparkSession.build...原创 2018-05-13 14:06:23 · 464 阅读 · 0 评论