
Spark
文章平均质量分 69
小蓝的程序猿生活
学生
记录所学知识
展开
-
PySpark中mapPartitionsWithIndex等map类算子生成器函数问题 - return\yield
顾名思义,本文讲述了的相关问题——return 和 yield的使用。首先先讲结论,在使用map等迭代生成的算子时最好使用。原创 2025-02-28 16:15:30 · 441 阅读 · 0 评论 -
java.io.IOException: Cannot run program “python3“: error=13, Permission denied【Pyspark】
在pyspark on yarn阶段,在所有节点都,但是java报无法访问【Permission denied】的问题。但是文件位置是的。具体报错如下图所示。原创 2024-08-20 10:59:56 · 825 阅读 · 0 评论 -
java.sql.SQLException: Unknown system variable ‘query_cache_size‘【Pyspark】
位置:E:\programfiles\anaconda\Lib\site-packages\pyspark\jars(这里根据各自的环境安排)根据该报错,发现网络上多数解决方都是基于java开发的解决方案,尝试过多种jar配置途径,都没办法解决该问题。首先产生该问题是没有配置合适的jar包,因此需要在本机的pyspark包中配置相关jar。后续发现时jar包有问题,通过参考其他文章思路,最终通过合适的jar包解决问题。的格式并提交到本地的mysql中,相关代码见文章末尾。的所以jar包一般用最新的即可。原创 2024-07-15 14:21:43 · 798 阅读 · 0 评论