
机器学习
文章平均质量分 90
楓尘林间
计算机爱好者
展开
-
Kaggle特征工程技巧target-encoding
target encoding是近年来在kaggle大赛中非常实用的针对针对类别特征一种处理方法代码示例# 2021 爱奇艺大赛# using target encoding# Tutorial: https://www.kaggle.com/ryanholbrook/target-encodingdef target_encoding(name, df, m=1): df[name] = df[name].str.split(";") df = df.explode(name)原创 2022-01-17 20:25:53 · 1528 阅读 · 0 评论 -
搜索评价指标——NDCG
转载自:胖喵~的博客概念NDCG,Normalized Discounted cumulative gain 直接翻译为归一化折损累计增益,可能有些晦涩,没关系下面重点来解释一下这个评价指标。这个指标通常是用来衡量和评价搜索结果算法(注意这里维基百科中提到了还有推荐算法,但是我个人觉得不太适合推荐算法,后面我会给我出我的解释)。DCG的两个思想:1、高关联度的结果比一般关联度的结果更影响最终的指标得分;2、有高关联度的结果出现在更靠前的位置的时候,指标会越高;累计增益(CG)CG,c转载 2021-11-22 10:36:49 · 5100 阅读 · 0 评论 -
anaconda利用sns或plt画图中文乱码问题
sns.set_style(“whitegrid”)必须注释或删除 否则改任何配置都是错的(都是血泪的教训)import seaborn as snssns.set_style({'font.sans-serif':['SimHei']})plt.rcParams ['font.sans-serif'] = ['SimHei'] #Used to display Chinese labels normallyplt.rcParams ['axes.unicode_minus'] = Fal.原创 2020-10-30 21:17:57 · 2758 阅读 · 2 评论 -
随进森林和xgb特征重要性和特征名称对应输出
# XX为df格式 train特征表feature_names = XX.columns.tolist()feature_names = np.array(feature_names)feature_importances = clf.feature_importances_indices = np.argsort(feature_importances)[::-1]x = feature_importances[show_indices],y=feature_names[indices]原创 2020-10-30 18:25:29 · 1005 阅读 · 0 评论 -
为什么金融领域建模需要进行WoE和IV
金融领域(尤其是评分卡)建模,模型并不复杂,虽然网上到处都是神经网络、xgboost的文章,但当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:1.logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。3.也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。在使转载 2020-08-23 14:35:05 · 2282 阅读 · 0 评论 -
AUC的相关知识及K-S曲线和K-S值介绍
1. AUC的直观解释大家都知道AUC是ROC下方的面积,ROC是什么?ROC怎么画呢?TRR = (TPTP+FN)\left(\frac{TP}{TP+FN}\right)(TP+FNTP) 又称真正率FPR = (FPFP+TN)\left(\frac{FP}{FP+TN}\right)(FP+TNFP) 又称负正率或假正率TP、FN、FP、TN如图:我们先建立坐标系,纵...原创 2019-11-28 00:00:57 · 2852 阅读 · 0 评论 -
Spark机器学习中的常用算法特征重要性筛选FeatureScore
1 logisticRegression2 randomforest3 xgboosthttps://stackoverflow.com/questions/62769574/spark-xgboost4j-how-to-get-feature-importancehttps://cloud.tencent.com/developer/ask/216071原创 2020-08-06 19:06:20 · 2883 阅读 · 0 评论 -
[转载]spark中ml与mllib 的区别
1 关于Spark ML1.1 定义spark机器学习,对的对象:DataFrame。1.2 对象主要操作的是DataFrame。其中taFrame是Dataset的子集,也就是Dataset[Row]。DataSet是对RDD的封装,对SQL之类的操作做了很多优化。2 关于Spark MlLib1.1 定义MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习具有可扩展性和容易性。在高水平上,它提供了以下工具: A、ML算法:常用的学习算法,如分类,回归,聚类和协同过滤转载 2020-07-31 17:14:17 · 342 阅读 · 0 评论 -
皮尔森相关系数与方差膨胀因子介绍及关系 附python代码
1.皮尔森相关系数参考文档:https://www.zhihu.com/question/208520042.方差膨胀因子图片来源:http://sofasofa.io/forum_main_post.php?postid=1000484R²称为可决系数(Coefficient of determination)。复相关系数Ri等于:(来源百度百科)3.二者区别皮尔森相关系数:复相关系数R:图片来源:https://zhuanlan.zhihu.com/p/37605060皮尔森原创 2020-05-21 20:10:59 · 6772 阅读 · 0 评论 -
风控场景下的常用特征分箱介绍:BestKs分箱、卡方分箱、聚类分箱等
构建风控模型时,常用特征的分箱方法可以分为两大类:有监督 Best-KS ChiMerge无监督 等频 等距 聚类有监督Best-KSChiMerge卡方阈值的确定: 根据显著性水平和自由度得到卡方值 自由度比类别数量小1。例如:有3类,自由度为2,则90%置信度(10%显著性水平)下,卡方的值为4.6。阈值的意义 类...原创 2020-06-02 17:34:24 · 10421 阅读 · 2 评论