
spark
Daisy和她的单程车票
无需言,做自己
展开
-
pyspark udf in get_return_value py4j.protocol.Py4JJavaError:
1、在用pyspark的时候,像这种udf函数一定要加上类型,,不然会报错~~2、pyspark 如图,如果不加float,会报下面这个错误File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_111643/container_1614052931500_111643_01_000001/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show File "/原创 2021-03-23 22:09:16 · 617 阅读 · 0 评论 -
pyspark学习
1、修改列名有两种方式1.1 for循环一个个修改for name in field_mapping: all_data = all_data.withColumnRenamed(name, field_mapping[name])1.2 functions函数import pyspark.sql.functions as Fall_data = (all_data.select(*[F.col(s).alias(field_mapping[s]) if s in field_mapp原创 2020-12-09 15:47:40 · 146 阅读 · 0 评论 -
数据倾斜原因及其解决方案
1、数据倾斜的概念数据倾斜是在map/reduce执行程序时,reduce大部分节点执行完毕,但有一个或者少数几个节点执行很慢,导致其他程序一直处于等待的状态,使得整个程序执行时间较长。2、为什么出现数据倾斜?主要是在shuffle过程中,由于不同的key对应的数据量不同导致不同task处理的数据量不一样的问题。表现如下:1、大部分的task执行完毕,少数几个甚至一个task可以执行但...原创 2020-04-12 20:55:14 · 1570 阅读 · 0 评论 -
spark xgboost & lightgbm 参数解释
一、spark xgboost 模型1 xgboost 的默认参数:xgb 参数参考链接 https://blog.youkuaiyun.com/yyy430/article/details/85179638 这个链接整理的比较全,但是这个参数是关于python版本的xgb,spark版本的xgboost默认参数和这个有出入1.1 默认参数如下: /*默认参数 eta -> 0.3 ...原创 2019-12-24 17:56:04 · 2371 阅读 · 0 评论 -
spark改写 心血管疾病预测
python版传送门:https://www.kesci.com/home/project/5da974e9c83fb400420f77d3package dataclear/** * @CreateUser: eshter * @CreateDate: 2019/10/23 * @UpdateUser: */import utils.session.IgnoreErrorAnd...原创 2019-12-05 14:13:56 · 957 阅读 · 3 评论 -
spark 改写 信用违约预测
信用违约预测传送门:https://www.kesci.com/home/project/5dadfeb675df5c002b20fa45package LittleTask/** * @CreateUser: eshter * @CreateDate: 2019/10/29 * @UpdateUser: */import org.apache.log4j.{Level, Lo...原创 2019-12-05 14:10:35 · 306 阅读 · 0 评论 -
spark 改写版 电信用户流失预测
参考链接:https://github.com/baopuzi/Telco_Customer_Churn/blob/master/tele_customer_churn_analysis.ipynb背景:https://zhuanlan.zhihu.com/p/68397317package bikedmtsparkjob.yufang.LittleTask/** * @CreateUs...原创 2019-12-05 14:08:37 · 570 阅读 · 3 评论 -
spark特征工程处理流程
一、特征工程查看数据的分布1df.describe().show()2df.summary().show() //这个显示比describe更全1 唯一值删除移除列特征中只有一个值的列 1 2`def UniqueValueRemove(df:DataFrame)={ 3 4 val df_ttmp=df.select(df.columns.map(c=>cou...原创 2019-11-08 11:25:28 · 450 阅读 · 0 评论 -
spark xgbboostClassifier参数设置
spark的XGBClassifier参数如下alpha -> 0.0 // learning ratemin_child_weight -> 1.0sample_type -> uniformbase_score -> 0.5colsample_bylevel -> 1.0grow_policy -> depthwiseskip_drop -&g...原创 2019-10-27 15:50:14 · 2557 阅读 · 1 评论 -
spark 行转列
StructType //注意这种方案解决的是形如下面myScore这样的扩展 /* root |-- age: long (nullable = true) |-- myScore: array (nullable = true) | |-- element: struct (containsNull = true)...原创 2019-10-27 15:37:49 · 524 阅读 · 0 评论 -
spark 填充缺失值系列
填充均值 //连续值填充均值 def ContinuousMissValueProcessingMean(df:DataFrame,douCols:Array[String]):DataFrame= { println("----连续值填充均值----开始-----") val meanDF = df.select((douCols)...原创 2019-10-27 15:35:15 · 2446 阅读 · 0 评论 -
spark gbdt 自定义阈值 取出模型概率,并转换label
在大家使用spark 的时候,会发现,ML库下的模型生成的概率是一个Vector,那么如何将这个Vector的概率为1的那一列取出呢?并且自定义阈值,按照这个阈值切分得到label的0,1类呢?这时候udf函数就派上了很好的用场,废话不多说,直接上代码取出Vector 的第n列,生成新的dataframe切分Vector得到每一列的值,形如调用下面的代码生成features,对feature...原创 2019-10-12 14:20:10 · 924 阅读 · 0 评论 -
spark调度的参数说明
一、spark 调度1 spark 参数说明参数名参数说明–mastermaster 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local–deploy-mode在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client–class应用程序的主类,仅针对 java 或 sc...原创 2019-10-12 14:07:57 · 336 阅读 · 1 评论