代码积累
LightsUpW
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python建模常用代码
整理记录,不定期更新评测指标from scipy.stats import ks_2sampks_value = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statisticfrom sklearn import metricsprint 'AUC: %.4f' % metrics.r...原创 2018-07-10 14:29:55 · 2191 阅读 · 0 评论 -
使用随机森林做特征选择
使用随机森林训练模型from sklearn.ensemble import RandomForestClassifierfeat_lables = trainx.columnsforest = RandomForestClassifier(n_estimators=10000, random_state=0,n_jobs=1)forest.fit(trainx, trainy)imp...转载 2018-07-04 17:48:12 · 9941 阅读 · 3 评论 -
Hive使用技巧总结
1.在Hive中可以使用正则表达式set hive.support.quoted.identifiers=None; select a.pin, `(pin)?+.+` from Table2.输出表数据时,显示列名set hive.cli.print.header=true;原创 2018-07-04 18:13:44 · 2018 阅读 · 0 评论 -
SparkSQL使用
一、默认配置Spark_HOME:进入目录/soft/client/spark-2.1.1-bin-2.6.0/conf文件夹,文件如下:spark-defaults.conf //设置spark maeter地址、每个executor进程的内存、占用核数等spark-env.sh //spark相关的各种环境变量log4j.properties.template //设...原创 2018-10-16 17:29:35 · 519 阅读 · 1 评论 -
linux常用shell命令汇总
补数据startDate=20180901endDate=20181021startSec=`date -d "$startDate" "+%s"`endSec=`date -d "$endDate" "+%s"`for((i=$startSec;i<=$endSec;i+=86400))dodtb=`date -d "@$i" "+%Y-%m-%d"`hiv原创 2018-11-15 10:52:08 · 272 阅读 · 1 评论
分享