
python
qq_18617299
无无无
展开
-
Pyspark rdd 和 dataframe 使用
PySpark rdd 使用mapValuese(list)Pass each value in the key-value pair RDD through a map functionwithout changing the keys; this also retains the original RDD’s partitioning.demo:rdd.map(lambda x: (x[0], x)).groupByKey().mapValues(list).collect()orderRD原创 2020-11-27 14:20:58 · 635 阅读 · 0 评论 -
pyspark udf 原理
pyspark pandas 用户自定义函数 转化为 udf(user defined functions)scalarscalar pandas UDF 用于向量化scalar 操作;The Python function should take pandas.Series as inputs and return a pandas.Series of the same length.(输入输出均为 pandas.Series,输出为相同长度的series)Grouped map UDFsYou原创 2020-11-01 17:26:11 · 728 阅读 · 0 评论 -
PySpark 运行程序参数详解以及常见服务器运行错误
pyspark 运行程序相关参数 command line spark-submit \ --name dp_main_spark-03 \ --master local[*] \ --driver-memory 80G \ --executor-memory 16G \ --conf spark.default.parallelism=500 \ --conf spark.shuffle.memoryFraction=0.3 \ dp_main_spark-03.py \ bm \原创 2020-11-01 17:22:16 · 800 阅读 · 0 评论 -
python 基本知识点汇总
Python 数据结构特点数值、字符串、元祖(tuple)采用的是复制方式(深拷贝)即python 引用全局变量需要引用全局变量前加个 globaldemo:x = 5print(5) def get(): global x x = x + 10 print(x) get()python 字典遍历data a {‘a’: ‘1’, ‘b’: ‘2’, ‘c’: ‘3’}1.遍历 key 值for key in a:print(key+":"+原创 2020-08-13 18:23:43 · 214 阅读 · 0 评论 -
pandas 常见 使用方法 以及使用场景
numpyNumpy:是N维数组对象(ndarray),是通用的同构数据多维容器。即其中的所有元素必须是同种类型ndarray有两个属性。shape:表示各维度大小的元祖 dtype:数组数据类型的对象ndarray 数据类型float64 int32numpy 索引:数组切片是原始数组的视图,视图上的任何修改都会直接反映到原数组上。切片索引array [[1,2,3],[4,5,6],[7,8,9] ]array[1,:2] [4,5]第一个值1是沿着第0轴原创 2020-08-13 17:13:43 · 1600 阅读 · 0 评论 -
Python 多个多边形 删除大于某个给定面积的多边形
删除大于给定多边形的面积。该多边形为 "113.2392901,21.91638982;113.2737369,21.8931719;113.2514275,21.86066642;113.2097454,21.91896039;113.2392901,21.91638982"。格式为 lon1,lat1;lon2,lat2;...lonn,latn;import numpy as ...原创 2019-10-24 11:49:40 · 321 阅读 · 0 评论 -
python 二维坐标多边形 计算多边形中心点,以及距该中心点最远的距离
def center_geolocation(geolocations): ''' 输入多个经纬度坐标(格式:[[lon1, lat1],[lon2, lat2],....[lonn, latn]]),找出中心点 :param geolocations: :return:中心点坐标 [lon,lat] ''' #求平均数 同时角度弧度转化 得到中心点 x = 0 # lon ...原创 2019-06-27 20:36:20 · 11809 阅读 · 1 评论 -
python 两个时间序列坐标点的平均航速计算 两个UTC时间差计算
计算两个UTC 时间差,返回两个UTC时间秒数def caculateTimeDifference(lastTime, currentTime): ''' 计算两个UTC时间差,秒 :param lastTime: :param currentTime: :return: ''' ctime = time.localtime(curren...原创 2019-07-26 16:17:34 · 620 阅读 · 0 评论