
大数据
gyl2016
这个作者很懒,什么都没留下…
展开
-
spark中dropDuplicates和distinct的区别
spark中去重算子问题原创 2021-12-21 18:00:18 · 2337 阅读 · 0 评论 -
spark中两表字段顺序不一致合并时union和unionAll的问题
背景:最近在利用spark合并两个表的时候,当两个表的字段顺序不一致时,合并后的结果是错误的。举例:原创 2021-06-17 15:06:43 · 2795 阅读 · 1 评论 -
Error: invalid log directory /app/spark/...
问题背景:在以stanalone方式部署的spark环境中,以cluster方式提交application后,过了半天发现在web页面driver上stdout和stderr上的日志全部都没有了,stdout中显示error: invalid log director /app/spark/...问题原因:由于在spark-env.sh中配置了每个worker清理日志的时间,即SPARK_WORKER_OPTS='-Dspark.worker.cleanup.enabled=true -Dspark.原创 2021-06-15 16:56:52 · 689 阅读 · 0 评论 -
spark中关于Insufficient space for shared memory file和java.io.IOException: No space left on device
背景:在spark中,去重后将数据写入到hdfs中时,报错:Insufficient space for shared memory file和java.io.IOException: No space left on device。原因:由于去重会带来shuffle,在shuffle过程中空间不足造成的。在spark-env.sh中找到SPARK_LOCAL_DIRS配置的目录/tmp/spark/tmp,然后利用du -sh /tmp查看空间发现满了,利用率为100%解决方法:(1)扩大/tmp挂载原创 2021-06-10 11:06:50 · 488 阅读 · 0 评论 -
spark 报:Warning: Master endpoint spark://ip:7077 was not a REST server. Falling back t
在利用spark以cluster方式提交application时会发现这个警告:Warning:Masterendpointspark://ip:7077wasnotaREST server.Fallingbacktolegacysubmissiongatewayinstead.提交方式:spark-submit --master spark://ip:port --deploy-mode client(cluster)原因:端口问题,解决方式:spark以clien...原创 2021-05-20 20:07:49 · 1315 阅读 · 2 评论 -
maven将项目依赖一起打包
今天项目打包的时候发现,jar包中只有自己写的主类,没有依赖,于是找了下如何将依赖与主类一起打成一个jar包。在pom.xml中<build>中添加如下代码:<plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</原创 2021-04-13 19:19:45 · 1056 阅读 · 0 评论 -
pyspark使用分布式xgboost
亲测跑通环境: Python 3.6.5 Pyspark:2.4.5 Spark: 2.4.3步骤: 第一步:配置好环境 第二步:下载相关文件(下载地址) xgboost4j-0.72.jar xgboost4j-spark-0.72.jar Sparkxgb.zip 第三步:关键点1:将xgboost4j-0.72.jar和Xgboost4j-spark-0.72.jar添加到job中(使用--ja...原创 2020-12-18 18:16:53 · 2604 阅读 · 19 评论 -
pyspark遇到的坑
问题1:All master are unresponsive! Giving up.问题1—提交代码的方式:spark-submit connectedComponentAnalysis.py --master yarn --deploy-mode cluster --executor-memory 3g --num-executors 10问题1—代码环境配置:conf = SparkConf()conf.setAppName("cca")sc = SparkContext(con原创 2020-09-02 22:04:41 · 988 阅读 · 0 评论 -
Spark中dataframe里data.drop()和data.na.drop()的区别
问题描述:原始数据data总行数是1303638,使用data.drop()后数据总行数是1303638,使用data.na.drop()后数据总行数是0;为啥data.drop()没有丢弃null或nan的数据?总结: 1)data.drop()如果不传递列名,不会做任何操作; 2)通过以下比较发现,drop是用来丢弃列的,而na.drop是用来丢弃行的; 3)通过以下比较发现,dataframe.drop是直接调用的dataset中drop接口; 4)如果想要...原创 2020-05-22 23:33:02 · 7800 阅读 · 0 评论 -
服务器搭建hadoop集群
环境使用centos作为系统环境,基于原生 Hadoop 2,在Hadoop 2.7.x版本下验证通过,可适合任何 Hadoop 2.x.y 版本,例如 Hadoop 2.7.1,Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为 Master 节点,局域网 IP 为 192.168.1.121;另一个作为 Slave 节点,局域网 IP 为 192.16...原创 2020-01-20 17:39:32 · 524 阅读 · 0 评论 -
大数据路上的bug坑
1、[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.5:compile (default-compile) on project easyml-manage: Compilation failure: Compilation failure: [ERROR] /D:/gyl/gite...原创 2019-11-02 16:29:42 · 3865 阅读 · 0 评论 -
python安装sklearn2pmml和jpmml-sklearn
sklearn2pmml:将训练模型直接导出为PMML文件。1、安装或更新sklearn:pip install -U scikit-learn2、安装sklearn-pandas:pip install sklearn-pandas3、安装sklearn2pmml:pipinstall --user --upgrade git+https://github.com...原创 2019-10-23 14:05:08 · 4679 阅读 · 0 评论 -
ubuntu18.04首次配置hadoop伪分布式以及出现的问题
1、搞明白单机、伪分布式和集群的区别单机:也称非分布式,是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试。直接解压hadoop包就行,无需配置。伪分布式:在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。在“单节点集群”上运行Hadoo...原创 2019-09-28 23:57:02 · 670 阅读 · 1 评论 -
spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题
需求:利用pmml(预测模型标记语言)来实现跨平台的机器学习模型部署。pmml简介:参考链接1如何将模型生成pmml格式:参考链接31、成功的写法:将数据的各种transform和模型全部都放入pipeline中,可以生成pmml。代码如下:import org.apache.spark.ml.linalg.Vectorsimport org.apache.spark...原创 2019-08-25 01:34:26 · 5298 阅读 · 13 评论