
pyspark
XnCSD
这个作者很懒,什么都没留下…
展开
-
数据预处理:PySpark 的实现线性插值填充缺失值
数据预处理:PySpark 的实现线性插值填充缺失值1. Python 实现线性插值填充缺失值实现函数为:def linear_insert(x1, y1, x2, y2, insert_x): if type(insert_x) == int: insert_x = [insert_x] k = (y2 - y1) / (x2 - x1) retur...原创 2019-06-06 15:57:08 · 3146 阅读 · 0 评论 -
pyspark 实现对列累积求和
pyspark 实现对列累积求和pandas 的 cumsum() 函数可以实现对列的累积求和。使用示例如下:import pandas as pddata = [1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0]data = pd.DataFrame(data, columns=['diff'])data['cumsum_num'] = data['diff'].cums...原创 2019-05-29 18:26:39 · 10357 阅读 · 0 评论 -
PySaprk 将 DataFrame 数据保存为 Hive 分区表
PySaprk 将 DataFrame 数据保存为 Hive 分区表创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc =...原创 2019-06-28 18:10:48 · 7398 阅读 · 1 评论 -
spark-submit 命令使用详解
spark-submit 命令使用详解spark-submit 用户打包 Spark 应用程序并部署到 Spark 支持的集群管理气上,命令语法如下:spark-submit [options] <python file> [app arguments]app arguments 是传递给应用程序的参数,常用的命令行参数如下所示:–master: 设置主节点 URL 的参数...原创 2019-09-06 20:38:08 · 21104 阅读 · 1 评论