python、pyspark小知识卡片
赵小丽-programer
mid-core programer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python 打印日志一目了然的数据结构namedtuple
文章目录写在前面namedtuple 使用写在前面namedtuple 是tuple的升级版本,主要解决了tuple 不能为元组内部的数据进行命名,所以往往我们并不知道一个元组所要表达的意义。关于标题 “python 打印日志一目了然的数据结构”其实应该是namedtuple 在我是用的过程中,比较高频的使用在打印日志上。namedtuple 使用尝试namedtuplefrom collections import namedtupleexample_namedtuple = named原创 2020-08-03 09:55:49 · 398 阅读 · 0 评论 -
kafka 客户端使用以及spark streaming
启动kafkash bin/kafka-server-start.sh config/server.properties作为消费者:sh bin/kafka-console-consumer.sh --bootstrap-server <your broker list> --topic <your topic>作为生产者sh bin/kafka-console-producer.sh --broker-list <your broker list&g.原创 2020-05-27 09:49:31 · 260 阅读 · 0 评论 -
spark任务卡住问题原因之一以及解决方案
本文是一个记录文,主要是参考网上的资料Spark任务一直停在某个Stage不动问题背景pyspark 在保存数据时,在最后4-5个stage 任务卡住不动,其他stage 10几分钟完成,这几个2h也没用完成,而且在sparkUI上面发现需要处理的数据0KB,实在是郁闷啊。网上查找资料如下,链接如上:分析主要是使用了spark 的推断执行机制,缺点开始推断执行,会启动多个ta...原创 2020-04-27 20:28:49 · 6474 阅读 · 0 评论 -
pyspark 去重操作总结
pyspark 中去重操作distinctrdd、dataframe 均可使用按照某一列进行去重1 使用reduceByKeyrdd 使用例子:对x[0] 进行去重,将x[0]作为key,其余作为value,(x[0],v),使用 reduceByKey(lambda x,y:x) 即可2 使用dropDuplicates(drop_duplicates)dat...原创 2019-01-28 10:38:53 · 12193 阅读 · 0 评论 -
split 函数在pyspark.sql 与hive中不同之处
pyspark.sql split 特殊字符 *sql = &quot;&quot;&quot; select split(flag,&quot;\\*&quot;) as flag from tableA &quot;&quot;&quot; s = sqlContex原创 2019-01-31 14:56:08 · 1295 阅读 · 0 评论 -
pyspark.sql.DataFrame-统计
继上篇DF中agg介绍之后,继续极少DF methods注册一个临时表:1 createGlobalTempView :创建了一个全局的临时表 对应于dropGlobalTempView spark.catalog.dropGlobalTempView("table_name")2.createOrReplaceTempView()& createTempView()...原创 2018-09-03 20:41:45 · 2312 阅读 · 0 评论 -
pyspark.sql.Column & pyspark.sql.Row
method of ColumnColumn 对象的创建创建方法 1. DF[“col_name”] 2.expression(DF[‘col_name’])column 的方法between(lowerBound,upperBound) 判断值的范围 [lower,upper]df.select(df.name,df.age.between(2,4))...原创 2018-09-05 10:17:54 · 936 阅读 · 0 评论 -
pyspark 学习 pyspark.sql module
pyspark.sql.SparkSession作用:创建DF、将DF注册为一张table,在table上执行sql,读取列式存储文件(parquet格式)注意parquet文件是一种以列式结构存储的数据,基于自己的理解,这种格式把数据转化为(r,d,value)能够压缩数据,在读取存储是可以加快速度,适合于我们开发过程中中间数据的存储再读取。创建方式from pyspar...原创 2018-09-02 22:54:27 · 1793 阅读 · 0 评论 -
pyspark.sql.DataFrame
method of DataFrame缺失值&amp;重复值 处理drop_duplicates eg: 1. df.drop_duplicates() 2.df.drop_duplicates(columns_lst)df.fillna(value),df.na.fill(dict{col_name:fill_value})原创 2018-09-04 10:24:47 · 450 阅读 · 0 评论 -
python 中 date与str转化及date之间的运算
1、str 2 date 头文件 import datetimestr="20180805"str2date=datetime.datetime.strptime(str,"%Y%m%d")#字符串转化为date形式date2str=str2date.strftime("%Y%m%d")#date形式转化为str2、 date之间的运算pre_date=date+原创 2018-08-08 21:59:44 · 38324 阅读 · 0 评论
分享