
pyspark
明子哥哥
学习记录笔记
展开
-
pyspark获取HIVE表中最新dt
获取通用最新dtdf = sqlContext.table("mart_xdata.pickup_published")df_dates = df.select('dt').distinct().orderBy(df['dt'].desc())lat_date_dict=df_dates.first().asDict()lat_dt=lat_date_dict['dt']原创 2021-03-03 16:51:52 · 560 阅读 · 1 评论 -
PySpark计算TF-IDF
tf-idf是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。1. TF在一份给定的文件ddd里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与原创 2020-05-25 20:40:15 · 2637 阅读 · 0 评论 -
pyspark批量生成tfrecord文件
人狠话不多,直接上代码!from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import HiveContextfrom pyspark.sql import Rowfrom pyspark import SparkFilesfrom pyspark.sql.types im...原创 2020-04-30 16:46:47 · 2433 阅读 · 0 评论 -
pyspark将RDD转成dict
在日常的数据处理过程,需要生成一个dict。词典数据来源主要有有:HIVE表、HDFS上的文件。1. 从HIVE表读数据并转成dictfrom pyspark import SparkContextfrom pyspark.sql import HiveContext,SparkSessionsc = SparkContext()sql_context = HiveContext(sc...原创 2020-01-17 11:03:49 · 3804 阅读 · 0 评论 -
PySpark自定义udf
from pyspark import SparkContextfrom pyspark.sql import HiveContextfrom pyspark.sql.functions import udfsc = SparkContext()sql_context = HiveContext(sc)def udf_1(input): ''' Do something '''...原创 2019-11-27 10:48:57 · 501 阅读 · 0 评论