
spark
数道难
这个作者很懒,什么都没留下…
展开
-
spark2调用TensorFlow2模型
问题一:com.google.protobuf.Parser.parseFrom方法找不到。因cdh默认的spark依赖jar中protobuf-java-[version].jar版本太低,需要手动升级替换;问题二:序列化org.tensorflow.SavedModelBundle后广播各种空指针,建议直接改道addFile(modelPath,true)于executor加载模型;sparkConf.set("spark.serializer", "org.apache.spark.seri原创 2021-04-28 16:35:28 · 461 阅读 · 0 评论 -
基于spark相关的DeepLearning选择
背景:TensorFlow性能差强人意,但DeepLearning领域优势,spark则反之。TensorFlow训练好的模型在spark中调用各种小问题不断。基于spark相关的DeepLearning大致看了下面这些,各有优缺点:elephas:参考:https://github.com/maxpumperla/elephasdist-keras:参考:https://github.com/cerndb/dist-kerassparknet:低活跃,https://github.com/原创 2021-03-31 17:21:40 · 490 阅读 · 0 评论 -
TensorFlow on spark笔记
spark-shell --master local[10] --driver-memory 10G --jars s3://boomplay-noversion/EMR/jars/tensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow_jni-1.14.0.jarspark-shell --jars s3:/原创 2020-12-25 17:04:26 · 845 阅读 · 3 评论 -
lightgbm on spark笔记
背景:自2017年微软开源lightgbm以来,各大算法相关赛事前排队伍当中都不乏lightgbm的身影:https://github.com/microsoft/LightGBM/blob/master/examples/README.md#machine-learning-challenge-winning-solutions但大部分参赛者都是纯Python写的单机脚本而已。为了借助当前流行的spark处理大量数据,我开始了lightgbm on spark之旅。遇到的问题:问.原创 2020-09-05 17:35:34 · 1915 阅读 · 6 评论 -
spark FPGrowth笔记
问题1:树深度无限制问题这频繁项 子集深度不加限制,感觉不合理,,,好比词袋模型词袋任意长了;若不在前面手动限制 频繁项 最大长度,我的笔记本直接运行不出来,我的笔记本必须限制到30以内size(ids)<30。问题2:参数含义setMinSupport(0.001) // 频繁项(热门商品)在总体的最小(出现)比例追溯从fit到genericFit就发现minCount= math.ceil(minSupport * count),再到genFreqItems发现解释为“m..原创 2020-06-04 20:12:45 · 423 阅读 · 0 评论 -
spark环境问题记录20200602
问题起因:winutils.exe和hadoop.dll导致,访问本地hive失败,报错如下:Exception in thread "main" org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are:原创 2020-06-02 20:20:53 · 504 阅读 · 0 评论 -
spark(Scala)默认CSV文件格式与python pandas 差异记录
一. spark中的写CSV:方式一:val saveOptions = Map("header" -> "true", "path" -> "file:///F:/test.csv")df.repartition(1) .write.mode(SaveMode.Overwrite).format("csv") .options(saveOptions) .save()df.coalesce(1) .write.mode(SaveMode.Append).opti原创 2020-05-13 10:33:23 · 1067 阅读 · 1 评论 -
DL4J hello world
背景:之前尝试TensorFlow训练保存pb模型给到spark用,感觉还是性能太慢了;开始寻求在spark上跑深度学习的方法,权衡sparkNet和DL4J后选择。参考官网 https://deeplearning4j.org/cn/quickstart 先弄了个例子:步骤1:克隆到本地F:\spark project\dl4j-examples>git clone https:...原创 2019-10-30 09:41:40 · 474 阅读 · 0 评论 -
spark初始化BindException问题源码分析
环境:spark1.4问题:new SparkContext(conf) 的时候出现报错,而且自己写的try catch都没用:java.net.BindException: 地址已在使用: Service 'SparkUI' failed after 16 retries!2018/12/04 18:10:39 - P_EXP_D_USER_BASE - (stdout) ...原创 2018-12-05 10:32:31 · 293 阅读 · 0 评论 -
spark als推荐算法笔记
转自: https://www.cnblogs.com/mstk/p/7208674.html ——上面的测试集实际用的训练集参考: https://blog.youkuaiyun.com/delltower/article/details/82219676参考: http://www.cnblogs.com/mooba/p/6539142.html参考: https://www.cnblogs....原创 2019-03-13 16:47:12 · 1012 阅读 · 2 评论 -
ExitCodeException exitCode=-1073741515
今天win10下idea本地保存模型文件,model.save和rdd.saveAsTextFile都会报错:ExitCodeException exitCode=-1073741515 异常。原因:操作系统缺少 dll文件解决办法:安装常用C++库合集(x86 + 64位)百度盘: https://pan.baidu.com/s/1dsL0V9dGUYXgEvFZOY...转载 2019-03-27 19:50:16 · 11612 阅读 · 19 评论 -
spark dataframe笔记
环境:win10 64位spark2.4.0问题:df.createOrReplaceTempView("t")后sqlContext.sql("select xxx from t where sum(f1)>=1group by f2,f3").show报错如下:UnsupportedOperationException: Cannot evalua...原创 2019-04-11 10:20:17 · 445 阅读 · 0 评论 -
Task not serializable笔记
环境:win10 64位,联想工作站台式idea 2018.3社区免费版问题:alsModel.recommendForAllUsers(2).show报错如下Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task not serial...原创 2019-04-08 15:33:50 · 688 阅读 · 0 评论 -
spark ALS源码余弦向量问题分析
训练迭代求解部分暂未研究,本次只分析推荐计算得分排序部分,即主要的推荐函数recommendForAll,先看代码(红色是源码计算得分,蓝色是我改的计算得分方式,注BLAS.f2jBLAS是private的用不了,退一步用了blas.sdot):def recommendForAll( srcFactors: DataFrame, ...原创 2019-05-01 17:24:37 · 376 阅读 · 0 评论 -
sparksql笔记——explode/Row_Number/collect_list篇
1. org.apache.spark.ml.recommendation.ALS推荐出来的结果虽然是排序了的,但是没有排序号;想知道推荐成功与推荐排名的关系需要自己加上Row_Number,方法如下:val recDF=spark.sqlContext.read.load(savePathMl) .selectExpr("id","explode(recommendations) as ...原创 2019-05-01 15:50:14 · 2158 阅读 · 0 评论 -
spark2.4 ML聚类数据源结构问题
问题:ML使用的数据源要求向量features格式必须是nullable=false,比如这样:StructType(StructField(id,IntegerType,false), StructField(features,ArrayType(DoubleType,false),true))[id: int, features: array<double>]然而,我们大...原创 2019-05-01 16:51:42 · 370 阅读 · 0 评论 -
ALS推荐算法在Spark上的优化--从50分钟到3分钟
转自:https://blog.youkuaiyun.com/butterluo/article/details/48271361/从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G,...转载 2019-05-20 13:59:42 · 713 阅读 · 0 评论 -
redis读取异常依赖冲突异常
环境:win10 64 bitidea 2018.3redis3.0.0 (win10版本)java.lang.NoSuchMethodError: redis.clients.jedis.ScanResult.getStringCursor()Ljava/lang/String;at com.redislabs.provider.redis.rdd.Keys$class.co...原创 2019-05-16 11:37:49 · 2337 阅读 · 0 评论 -
GPU 版 TensorFlow 资源不足问题笔记
问题1:同时多个程序训练、测试模型报错如下Caused by op 'MatMul', defined at: File "F:/python/DeepFM/test/cs.py", line 214, in <module> y_deep = tf.add(tf.matmul(y_deep, weights["layer_%d" % i]), weights["bia...原创 2019-10-08 11:08:27 · 865 阅读 · 0 评论 -
RDD中println打印问题随笔
本以为本地测试打印,因为是.setMaster("local[1]"),并且getNumPartitions返回1,所以打印应该跟collect到driver后打印应该是一样的。但是事实并非如此,今天无意中发现,RDD中只有2行的打印会在正常的打印2行后,多出N行,断点打印发现,正常打印完2行后,明明顺序往下执行了,但是后面程序又跳回到了RDD中打印了。原因:RDD被后面代码反复引用,但是没有pe...原创 2018-07-06 17:11:27 · 1142 阅读 · 0 评论 -
standby导致spark初始化失败问题记录
问题:11:15:50,290 ERROR ~ Error initializing SparkContext.org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby ...原创 2018-11-28 11:43:56 · 675 阅读 · 0 评论 -
hive0.13 insert空指针问题记录
问题背景:INSERT...VALUES is available starting in Hive 0.14;但我们在hive0.13中希望简单插入数据然后测试;然后建表,表结构:create table IF NOT EXISTS testj( f1 string, f2 string) partitioned by (day...原创 2018-10-26 10:17:24 · 1345 阅读 · 0 评论 -
spark submit依赖jar批量添加小技巧
晾干货,不解释s=`ls ./lib/`strjar=`echo $s | sed "s/ /,/g"`原创 2018-05-16 09:24:30 · 1949 阅读 · 0 评论 -
spark集群大部分slave在任务运行时突然挂掉
原因1:G1和CMS同时设置到了submit参数当中,去掉一个就好了;比如用下面的提交参数:(总核心都是60时,调整每台executor核心和混洗分区数(默认200),平均18分钟变成了12分钟运行完)$SPARK_HOME/bin/spark-submit --driver-memory 6g --conf spark.executor.cores=4 --conf spark.executor...原创 2018-07-06 17:08:51 · 1569 阅读 · 0 评论 -
Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置并行度,可以...转载 2018-05-22 15:23:04 · 284 阅读 · 5 评论 -
spark集群外submit
除了远程调试之外,其实也可以在部署spark master/slave的机器外,如:装部署有yarn的(yarn slave)机器上submit任务,这个地球人都知道;或者是单独装有spark的机器(并未配置到spark的master/slave中)上以stand alone提交任务,这个大家应该很少遇见(类似于idea里面的远程调试);当然此时的driver一样都在提交的机器上(默认的c...原创 2018-07-06 17:10:03 · 1500 阅读 · 0 评论 -
spark内存溢出问题
9090监控页面显示storage都没用(这里似乎只统计persist持久化的):但是jmap -heap pid显示内存不够了:然后报错:SparkException: Kryo serialization failed: Buffer overflow解决办法:加大spark.driver.memory、spark.executor.memory、spark.kryoserializer.bu...原创 2018-05-08 11:18:15 · 3177 阅读 · 0 评论 -
spark参数
spark提交参数:http://spark.apache.org/docs/latest/submitting-applications.html spark程序里设置参数http://spark.apache.org/docs/latest/configuration.html pom的url:<url>http://maven.aliyun.com/...原创 2018-07-06 17:07:00 · 319 阅读 · 0 评论 -
SVM实例
数据源:R自带的iris三种花数据(R的e1071包没装下来,so用Scala写了);spark mlib代码: def svmTest(sc:SparkContext,sqlContext:SQLContext): Unit ={ import org.apache.spark.mllib.classification.SVMWithSGD import org.apache.s...原创 2018-05-11 16:25:29 · 738 阅读 · 0 评论 -
spark-shell启动报错:Yarn application has already ended! It might have been killed or unable to launch...
前半部分转自:https://www.cnblogs.com/tibit/p/7337045.html (后半原创)spark-shell不支持yarn cluster,以yarn client方式启动spark-shell --master=yarn --deploy-mode=client启动日志,错误信息如下 其中“Neither spark.yarn.jars nor spark.yarn...原创 2018-04-17 09:50:52 · 6294 阅读 · 1 评论 -
spark1.6临时表uncacheTable内部bug,spark2.0后修复
问题:前面的无用临时表的uncacheTable会导致下次select后面其他临时表的时候出现unknown accumulator id;若是uncacheTable后面刚注册的临时表,再查前面的临时表则没问题。报错如下:18/04/04 03:53:56 WARN Accumulators: Ignoring accumulator update for unknown accumulator...原创 2018-04-11 11:43:15 · 1338 阅读 · 0 评论 -
ambari与hortonworks、apache易混淆关系
百度百科上ambari写的是apache的,并在网页后面附上了apache官网url,但是hortonworks官网上也挂着个ambari,初学者容易混淆;其实两者是差不多的,据我观察:apache ambari是原始版本,发行的最新版本会高于hortonworks官网里面的最新发行版本;但ambari2.7.1.0在hortonworks官网中已经有Ubuntu18的安装教程了,而apa...原创 2018-05-16 11:06:48 · 2904 阅读 · 1 评论 -
hive远程调试问题java.net.UnknownHostException: unknown host: master
解决办法如下:在C:\WINDOWS\system32\drivers\etc\hosts文件中添加“如下“信息:192.x.x.x master注:之前我有遇到改下project中hdfs-site.xml下的master:10000改为ip:10000就好了,但是今天发现这招失灵了,ε=(´ο`*)))唉。改了这个之后能够sqlContext.sql("show databases")等操作,...原创 2018-05-23 16:08:47 · 4049 阅读 · 0 评论 -
spark读写hbase0.9x问题(主要是依赖)记录
问题表现:读hbase时候报各种依赖缺失,运行到:val conf = HBaseConfiguration.create()或者val table = new HTable(conf, tableName)我试了复制HBaseConfiguration源码改写后能create了,但是new HTable的时候还是会自动用源码重新创建conf,于是放弃改源码;具体过程参考如下问题解决...原创 2018-10-16 14:20:31 · 1034 阅读 · 0 评论 -
idea工程复制后问题(依赖缺失)记录
环境:win7 cdh5.0.0 spark1.4.0 问题一:编译后运行报错:错误: 找不到或无法加载主类 main.test再看run - edit config.... 里面对应的有:Warning: Class 'main.test' not found in module 'projectName'解决办法:对应的类右键 - make directory as - sou...原创 2018-10-08 15:31:22 · 943 阅读 · 0 评论 -
spark streaming容错问题记录
参考:http://spark.apache.org/docs/1.4.0/streaming-kafka-integration.html—— 官网使用http://kafka.apache.org/082/documentation.html#basic_ops_consumer_lag —— kafkahttps://www.jianshu.com/p/716af54491...转载 2018-09-29 10:51:39 · 189 阅读 · 0 评论 -
Scala、spark版本错乱问题记录
表现1: Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$conforms()Lscala/Predef$$less表现2: NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object 原因:...原创 2018-09-14 09:52:07 · 895 阅读 · 0 评论 -
Spark三种参数配置方式详细说明
两个月没写spark了,感觉忘记得比较快,特此记录下常见配置参数方式;参考:https://blog.youkuaiyun.com/xiaolang85/article/details/51364259http://www.cnblogs.com/sh425/p/7384467.html...转载 2018-08-09 10:34:53 · 661 阅读 · 0 评论 -
hbase0.96.1.1笔记(hadoop2.3.0-cdh5.0.0)
问题1:win7+idea下写hbase卡住不动 Zookeeper 错误 Will not attempt to authenticate using SASL (unknown error)解决方式: C:\Windows\System32\drivers\etc\hosts 里加入 zookeeper域名和IP的映射 (如果文件无法编辑,我是直接删除原host文件,并新建同名文件后编辑;可...原创 2018-07-06 17:05:00 · 191 阅读 · 0 评论 -
idea 连接hive(cdh3)问题1
Exception in thread "main" java.lang.IllegalArgumentException: Unable to instantiate SparkSession with Hive support because Hive classes are not found. at org.apache.spark.sql.SparkSession$Builder.ena...原创 2018-07-03 17:52:28 · 1596 阅读 · 0 评论