
spark
文章平均质量分 67
山木枝
这个作者很懒,什么都没留下…
展开
-
spark作业配置及spark-submit参数说明
1.spark作业配置的三种方式读取指定配置文件,默认为conf/spark-defaults.conf。 在程序中的SparkConf中指定,如conf.setAppName(“myspark”)。 spark-submit中使用参数。 这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-submit中使用–verbos参数查看起作...转载 2018-11-20 19:27:54 · 2978 阅读 · 0 评论 -
pyspark连接oracle
在本文中,我将Apache Spark连接到Oracle数据库,直接读取数据,并将其写入DataFrame。随着我们日常生活中产生的数据量的快速增长,大数据技术已经很快进入我们的生活。 我们现在使用的工具能够快速有效地解决我们的业务,而不是传统的解决方案。 Apache Spark的使用是一种可以满足我们需求的常用技术。Apache Spark基于一个可以非常快速和分布式地处理数据的框架。...翻译 2018-11-20 20:02:26 · 3276 阅读 · 2 评论 -
pyspark连接hbase
在CentOS下用PySpark连接HBasehttp://www.yanglajiao.com/article/otie99/79343984Spark2.1.0+入门:读写HBase数据(Python版)http://dblab.xmu.edu.cn/blog/1715-2/原创 2018-11-23 18:46:14 · 3536 阅读 · 1 评论 -
pyspark dataframe列的合并与拆分
使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("da...原创 2018-11-25 19:29:19 · 31437 阅读 · 2 评论 -
linux下kill -9 不能强制杀掉spark-submit进程
问题:在python编辑器中运行spark程序时,忘记加spark.stop()停止spark,所以每提交一次程序就多一个spark-submit进程,而且sparkUI的端口号还被占用了。这时候用kill -9 spark-submit_pid无法杀死spark-submit进程原因: kill -9发送SIGKILL信号将其终止,但是以下两种情况不起作用:a、该进程处...原创 2018-11-25 15:57:13 · 4947 阅读 · 0 评论 -
Spark应用程序第三方jar文件依赖解决方案
第一种方式操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景:第三方jar文件比较小,应用的地方比较少第二种方式操作:使用spark-submit提交命令的参数: --jars要求:1、使用spark-submit命令的机器上存在对应的jar文件2、至于集群中其他机器上的服务需要该jar文件的时候,通过driver提供的一个http接口来获取...转载 2018-11-25 16:06:09 · 1486 阅读 · 0 评论 -
pyspark dataframe将一行分成多行并标记序号(index)
原始数据如下:gid score a1 90 80 79 80 a2 79 89 45 60 a3 57 56 89 75 from pyspark.sql.functions import udf, colfrom pyspark.sql.types import MapType, IntegerType, StringTypedef udf_...原创 2018-12-02 14:27:55 · 5943 阅读 · 0 评论 -
pyspark读取Oracle数据库并根据字段进行分区
前一篇文章pyspark连接oracle中详细讲述了初步连接Oracle的方法,这种连接方式每次只使用一个RDD分区,即numPartitions默认为1.这种方式当表特别大的时候,很可能出现OOM.pyspark提供两种对数据库进行分区读取的方式方法一:指定数据库字段的范围之前的方式是:empDF = spark.read \ .format("jdbc") \ ...原创 2018-12-11 16:34:16 · 2392 阅读 · 0 评论