
pyspark
如何处理大数据pyspark
金融小白数据分析之路
小白数据分析、前后端开发工作者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pyspark 类sql功能的使用(窗口、表连接、分列、分组求和、日期格式处理)
F.sum 分组累计求和,相当于pandas.groupby.cumsum,partitionby进行分组,orderby是根据两个字段排序。unionall做两个表之间的连接操作,不进行去重的操作。用split方法进行操作,getitem获取分列的第几个。pyspark使用sql类似方法窗口函数window.一、pyspark窗口函数的使用。三、对string列进行分列操作。二、pyspark 表连接操作。,可以进行联合orderby。原创 2022-09-05 15:04:51 · 876 阅读 · 0 评论 -
pyspark引起内存满了,日志路径(windows)
清除日志原因:c盘因为多次pyspark任务之后,运行的文件量过大引起的c盘过满了# 用户 Local\Temp 目录下面C:\Users\ASUS\AppData\Local\Temp# 缓存数据在blockmgr开头的文件夹中blockmgr原创 2022-04-08 13:30:06 · 1043 阅读 · 0 评论 -
pyspark性能优化之join(放弃isin)
pandas isin 长期使用速度非常快pyspark isin 对比速度非常的慢思路参考文章https://www.pythonheidong.com/blog/article/400508/6b647ae338b352406ce5/以下为改进的操作#leftouter操作fmqd=pd.read_excel('2022年负面清单.xlsx')# 字段需要指定,不然会出现报错fmqd['项目编码']=fmqd['项目编码'].astype(str)# 字段名相同容易joinfmqd.原创 2022-02-21 16:38:17 · 1944 阅读 · 0 评论 -
pyspark Dataframe
import findsparkfindspark.init()from datetime import datetime,dateimport pandas as pdfrom pyspark.sql import Row,SparkSessionspark=SparkSession.builder.getOrCreate()df=spark.createDataFrame([Row(a=1,b=2.,c='string1',d=date(2000,1,1),e=datetime(2000,1原创 2022-01-26 14:29:10 · 647 阅读 · 0 评论 -
pyspark对timestamp列处理及对列进行修改格式
import findsparkfindspark.init()from pyspark.sql.types import *from pyspark.sql import SparkSessionfrom pyspark.sql.functions import to_datefrom pyspark.sql.functions import to_timestampif __name__ == '__main__': # 0. 构建执行环境入口对象SparkSession原创 2022-01-06 09:23:13 · 1964 阅读 · 2 评论 -
PySpark: java.lang.OutofMemoryError: Java heap space
from pyspark.sql import SparkSession# 调整spark.driver.memory 大小设置根据实际环境调整spark = SparkSession.builder \ .master('local[*]') \ .config("spark.driver.memory", "15g") \ .appName('my-cool-app') \ .getOrCreate()参考资料https://stackoverflow.com/原创 2021-12-28 21:32:07 · 1863 阅读 · 8 评论 -
pyspark同一目录多文件读取
读取相同开头jsmx文件为列# jsmx* df = spark.read.format("csv").\ option("sep", "^^").\ option("encoding", "utf-8"). \ option("header", True). \ schema(schema=schema). \ load("G:\\20211223\\20211223\\jsmx*.csv")参考资料:https原创 2021-12-27 16:37:52 · 1192 阅读 · 0 评论 -
WARNING:root:‘PYARROW_IGNORE_TIMEZONE‘ environment variable was not set.
开头添加import osos.environ["PYARROW_IGNORE_TIMEZONE"] = "1"https://stackoverflow.com/questions/65398794/what-does-this-mean-warningrootpyarrow-ignore-timezone-environment-variabl原创 2021-12-26 20:45:47 · 908 阅读 · 0 评论 -
pyspark使用windows单机处理100g以上csv,突破pandas内存限制
运行环境spark3、三星980内存、i7-10700k, 5分钟处理好。主要使用CPU和固态硬盘换取内存处理,速度处理快于内存处理,spark自带分布式处理。py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM报错引入import findsparkfindspark.init()import findsparkfinds原创 2021-12-26 19:08:53 · 1616 阅读 · 0 评论 -
pyspark进行操作mysql
需要进行安装的内容https://zhuanlan.zhihu.com/p/136777424原创 2021-06-10 13:36:37 · 268 阅读 · 0 评论 -
pyspark windows10安装
pyspark安装指南https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6Apyspark学习指南https://edu.hellobi.com/course/309/overview原创 2021-06-09 20:55:22 · 150 阅读 · 0 评论