
PySpark
微电子学与固体电子学-俞驰
如切如磋,如琢如磨,臻于至善。
展开
-
ubuntu下面pycharm设置pyspark的配置
总共3步组件 版本 Ubuntu 20.04 Pycharm 2018.3 选择下方右侧的conda,然后点击+安装py4j配置下面的变量:③据说需要添加py4j-some-version.zip和pyspark.zip的路径我是直接整个$SPARK_HOME/python文件夹都添加了然后运行下面代码可以看到顺利地输出hellofrom pyspark import SparkContextprint("hello")...原创 2020-08-14 13:33:58 · 1089 阅读 · 0 评论 -
spark shell的运行模式汇总
scala语言模式 启动命令 local模式 spark-shell --master local yarn模式 spark-shell --master yarn standalone-client模式 ①spark-shell ②spark-shell local ③spark-shell --master spark://master:7077 ...原创 2020-07-29 00:06:49 · 464 阅读 · 0 评论 -
Python in worker has different version 3.7 than that in driver 3.6
环境:组件 版本 Ubuntu 20.04 Spark 3.0.0-preview2-bin-hadoop3.2 完整报错如下 :Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.: org.apache.spark.SparkException: Job aborted due to stage failure原创 2020-07-28 23:49:04 · 998 阅读 · 0 评论 -
rdd后面[]中的数字是啥意思
scala> val rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24scala> rdd1.idres4: Int = 0就是个id,没啥用参考:https://stackoverflow.com/questions/4...转载 2020-05-08 18:56:47 · 492 阅读 · 0 评论 -
如何避免jps中一大堆spark-submit+Spark交互模式启动速度+正确的退出spark-shell/pyspark/SparkR/hbase的习惯
如果经常强制退出交互模式,那么jps中就会有一大堆的submit交互式模式不支持Java启动交互式模式的命令 编程语言 退出 spark-shell --master yarn scala scala> :q pyspark --master yarn python >>> quit() sparkR --master...原创 2020-05-05 14:26:34 · 1313 阅读 · 0 评论 -
shuffle操作图解以及job-stage-task-partition区别
--------------------------------------------------------------shuffle操作图--------------------------------------------------------------基本概念:spark中的partition 是弹性分布式数据集RDD的最小单元spark.shuffle.manager...原创 2020-05-04 23:20:47 · 806 阅读 · 0 评论 -
pyspark的rdd直接写入mysql
Google搜索"RDD write into mysql"前面5页得到:[5][6][7][8][9][10]我们一个个来分析[1][2][3]读出的是RDD,写入的是foreachpartition的方式[4]写入的不是spark RDD,而是一个Spark的DataFrame类型的变量[5]写入的不是spark RDD,而是Spark RDD转化为DataFrame类...原创 2020-05-04 22:00:08 · 1200 阅读 · 0 评论 -
py4j.protocol.Py4JJavaError: An error occurred while calling o90.save
环境:Ubuntu19.10anaconda3-python3.6.10scala 2.11.8apache-hive-3.0.0-binhadoop-2.7.7spark-2.3.1-bin-hadoop2.7java version "1.8.0_131"Mysql Server version: 8.0.19-0ubuntu0.19.10.3 (Ubuntu)...原创 2020-05-03 20:26:58 · 8762 阅读 · 1 评论 -
提交spark的bug的地方
spark的github是:https://github.com/apache/spark但是关闭了issues,所以需要去另外一个地方提交issue:https://issues.apache.org/jira/browse/SPARK-8368原创 2020-05-03 19:43:09 · 386 阅读 · 0 评论 -
pyspark启动时卡住了
解决办法:注销,然后重新登录pyspark就好了。原创 2020-05-03 16:24:41 · 1019 阅读 · 1 评论 -
pyspark报错java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver
完整报错如下:Traceback (most recent call last): File "<stdin>", line 6, in <module> File "/home/appleyuchi/bigdata/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/readwriter.py", line 703, i...原创 2020-05-03 14:19:03 · 3933 阅读 · 1 评论 -
spark.yarn.archive 的正确设置方法
spark.yarn.archive 的设置方法有很多,下面三种①spark.yarn.jars hdfs://Desktop:9000/spark/jars/*②spark.yarn.jars hdfs://Desktop:9000/spark/jars/*.jar③spark.yarn.jars hdfs://Desktop:9000/spark/jars/上述配置真的正确...原创 2020-05-02 21:17:59 · 3315 阅读 · 0 评论 -
python 的几个内置函数(lambda ,zip, filter, map, reduce )用法
1.lambda lambda其实就是一条语句,lambda(x):body。x是lambda函数的参数,参数可以有任意多个(包括可选参数);body是函数体,只能是一个表达式,并且直接返回该表达式的值。>>>f=lambda x:x+1>>>f(2)3>>>(lambda x,y:x+y)(2,3)5 2.filter filte...转载 2018-07-13 19:10:09 · 371 阅读 · 0 评论 -
Fatal error compiling: 无效的目标发行版: 3.1
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project java: Fatal error compiling: 无效的目标发行版: 3.1 -> [Help 1] 修改项目的pom.xml中的java版...转载 2018-08-05 19:28:20 · 1539 阅读 · 0 评论 -
java.lang.NoSuchMethodError: org.apache.spark.streaming.api.java.JavaStreamingContext.awaitTerminati
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.streaming.api.java.JavaStreamingContext.awaitTermination(J)V at JavaNetworkWordCount.main(JavaNetworkWordCount.java:45) ...原创 2018-08-05 20:07:17 · 797 阅读 · 0 评论 -
maven零基础从配置到运行helloworld(java maven helloworld)
首先是maven的安装和配置http://mirrors.shu.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz下载apache-maven-3.5.4解压到~/bigdata/apache-maven-3.5.4---------------------------~/.bashrc配...原创 2018-11-12 13:31:15 · 903 阅读 · 0 评论 -
Unable to load native-hadoop library for your platform
环境:ubuntu-linux 16.04spark-2.3.1-bin-hadoop2.7hadoop-2.7.7可能的原因:1.so文件版本不对查看命令:file libhadoop.so.1.0.0libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically ...原创 2018-11-12 13:31:32 · 2307 阅读 · 0 评论 -
Spark-shell进行粘贴模式
进去前首先输入:scala> sc.stop()然后 scala> import org.apache.spark.{SparkConf, SparkContext}scala> val conf = new SparkConf().setMaster("local[*]").setAppName("Kmeans")scala> val sc=new...转载 2018-08-31 09:45:21 · 1294 阅读 · 0 评论 -
关于“xxx”object is not callable的异常(转)
所谓callable对象是指一个后边可以加()的对象,比如函数,所以这种异常肯定是某对象多加了(),比如:把一个变量用了函数名来命名,结果再调这个函数的时候就会报这个异常。...转载 2019-05-21 15:18:41 · 6524 阅读 · 0 评论 -
None.org.apache.spark.api.python.PythonAccumulatorV2
完整报错如下:2019-05-21 15:19:00 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetting default log level to "WARN".T...转载 2019-05-21 15:21:27 · 3461 阅读 · 1 评论 -
基于Pyspark和Thunder的神经图像数据分析-实验运行结果
图11-5:中部的时间序列的50个随机样本子集图11-6:体元标准差分布图11-7:基于标准差的50个最活跃的时间序列图11-8:以k为变量的K均值误差指标函数(圆点代表model_error_1,三角形代表model_error_2)图11-9 k=20时的模型中心图11-10:不同类簇的体元分配不同颜色的三维像素图...转载 2019-05-22 18:17:11 · 305 阅读 · 0 评论 -
scala语法汇总
// def main(args: Array[String]) def main(){print("-------------------------------------下面是输出语句的用法--------------------------------------\n")var list = Array(1,2,3,4) var a = 10; var b = 20;...转载 2018-07-31 09:52:50 · 312 阅读 · 0 评论 -
Exception in thread "main" org.apache.thrift.transport.TTransportException: Could not create ServerS
Exception in thread "main" org.apache.thrift.transport.TTransportException:Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. lsof -i:9083再关闭端口即可转载 2018-07-22 20:44:31 · 3348 阅读 · 0 评论 -
pyspark读取json文件中的内容
代码如下:#-*- coding:utf- -*-import sysreload(sys)sys.setdefaultencoding('utf-8')from pyspark import SparkConf,SparkContextfrom pyspark.sql import SQLContextconf=SparkConf().setAppName("spark_...转载 2018-07-20 12:37:02 · 6167 阅读 · 0 评论 -
Caused by: java.net.UnknownHostException: ubuntu: Name or service not known
终端输入hostname得到:ubuntu然后:ping ubuntu如果不能ping通的话在/etc/hosts中添加一句ubuntu 127.0.0.1即可,然后重新运行spark代码,报错就消失了原创 2018-07-14 20:59:15 · 1677 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: com/fasterxml/jackson/databind/Module
(python2.7) appleyuchi@ubuntu:~$ pysparkPython 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2Type "help", "copyright", "credits" or "license" for more information.18/07/25 ...原创 2018-07-25 17:30:46 · 6135 阅读 · 0 评论 -
pyspark.zip/pyspark/worker.py:53: UnicodeWarning: Unicode equal comparison failed to convert both ar
/home/appleyuchi/.virtualenvs/python2.7/local/lib/python2.7/site-packages/pyspark/python/lib/pyspark.zip/pyspark/worker.py:53: UnicodeWarning: Unicode equal comparison failed to convert both arguments...原创 2018-07-13 19:59:29 · 747 阅读 · 0 评论 -
解决spark-shell输出日志信息过多
当我们执行Spark-shell的时候,会出现如下界面,如果觉得显示信息过多可通过修改conf文件夹下的log4j.properties文件让其只显示警告信息,而不显示所有的信息1。 解决方案进入到spark目录/conf文件夹下,此时有一个log4j.properties.template文件,我们执行如下命令将其拷贝一份为log4j.properties,并对log4j.properties文...转载 2018-07-13 17:55:19 · 1610 阅读 · 0 评论 -
如何运行含spark的python脚本
first.py如下rom pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf = conf)lines = sc.textFile("first.py")pythonLines = lines.filte...转载 2018-07-13 17:53:26 · 1412 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
spark-env.sh中加入export SPARK_DIST_CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath)转载 2018-07-24 20:18:12 · 1887 阅读 · 1 评论 -
hive与spark的匹配版本汇总
版本信息来自于hive的源码包的pom.xml文件中,汇总下:apache-hive-1.2.2-src <spark.version>1.3.1</spark.version>apache-hive-2.1.1-src <spark.version>1.6.0</spark.version>apache-hive-2.3.3-src <...原创 2018-11-12 13:30:30 · 7432 阅读 · 0 评论 -
sublime+virtualenv+pyspark执行的时候报Unable to load native-hadoop library for your platform
Unable to load native-hadoop library for your platform这个报错在网上有一大堆解决方案,我们会发现,完全无效。为什么呢?因为此时,sublime里面的虚拟环境python2.7使用的是virtualenv的site-packages下面的pyspark,不再是我们下载的那个pyspark源码包了。所以解决方案只有一个,/home/appleyuc...原创 2018-07-14 22:22:42 · 1161 阅读 · 0 评论 -
pyspark读写SequenceFile
完整代码如下:# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')# @Author: appleyuchi# @Date: 2018-07-19 14:59:02# @Last Modified by: appleyuchi# @Last Modified time: 2...原创 2018-11-12 13:31:50 · 1784 阅读 · 2 评论 -
spark 常用函数介绍(python)
在开始之前,我先介绍一下,RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到...转载 2018-07-15 19:01:06 · 912 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
这个问题先检查mysql中的hive数据库是否有一大堆的表格,如果没有的话,需要先一.hive元数据库初始化,执行 schematool -dbType mysql -initSchema(schematool是hive文件夹下面的一个文件)这个初始化后的结果在mysql种的hive数据库中二.然后检查hive-site.xml中是否数据库的用户名和密码弄错了 ...转载 2018-07-22 20:43:01 · 3991 阅读 · 1 评论 -
MetaException(message:Hive Schema version 3.0.0 does not match metastore's schema version 1.2.0 Meta
解决方案https://www.cnblogs.com/liupuLearning/p/6812853.html讲真,这种问题碰到也是因为没有选好版本,版本真的不能选择太高啊.转载 2018-07-22 20:40:20 · 666 阅读 · 0 评论 -
Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.
解决方案如下:在hive 配置文件hive-site.xml 中找到${system:java.io.tmpdir},并把此都替换成具体目录,如/home/hive/apache-hive-2.0.0-bin/iotmp然后,启动hive即可 ...转载 2018-07-22 20:05:38 · 3999 阅读 · 0 评论 -
llegal character entity: expansion character (code 0x8
Exception in thread "main" java.lang.RuntimeException: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8 at [row,col,system-id]: [3213,96,"file:/home/appl...原创 2018-07-22 20:02:29 · 2830 阅读 · 0 评论 -
WARN HiveConf: HiveConf of name hive.metastore.local does not exist注意事项
WARN HiveConf: HiveConf of name hive.metastore.local does not exist解决方案是:<property> <name>hive.metastore.local</name> <value>false</value> <description>...原创 2018-07-22 13:16:36 · 7001 阅读 · 0 评论 -
安装hive出现的各种问题(这些问题出现在spark连接mysql的时候)
首先在启动hive的时候,进入debug模式,hive -hiveconf hive.root.logger=DEBUG,console才能出现下面的信息,终端上的信息会非常多,我们可以按下shift+pageup键,把信息拷贝到一个txt上,然后搜索error这个单词所在位置,往往就是报错信息,然后进行不断地人机交互.进入hive 执行show databases时报错, 错误如下...转载 2018-07-21 20:46:18 · 1436 阅读 · 0 评论