- 博客(6)
- 收藏
- 关注
转载 威尔逊分
威尔逊得分排序算法,Wilson Score,用于质量排序,数据含有好评和差评,综合考虑评论数与好评率,得分越高,质量越高。源码参考:https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.pyWilson Scoreu表示正例数(好评),v表示负例数(...
2019-07-01 13:38:40
1180
原创 xgboost-spark-scala
今天学习写scala,拿xgboost试一下~先记一下xgboost调参要点:7.xgboost中比较重要的参数介绍(1)objective [ default=reg:linear ] 定义学习任务及相应的学习目标,可选的目标函数如下:“reg:linear” –线性回归。“reg:logistic” –逻辑回归。“binary:logistic” –二分类的逻辑回归问题,输出为概...
2019-04-07 23:59:41
1298
原创 集成学习Ensemble Learning
1.集成学习概念在有监督学习过程中,我们希望训练得到一个各方面表现都很好的“稳定”的模型。但实际训练过程中,我们常常训练得到的是在某个方面表现较好的模型,这样的模型可以训练出很多,他们的擅长的方面也不完全一样。这时候我们就会想要通过“模型组合”或者叫“模型融合”的方式来获得更好更稳定的模型。这个过程也叫集成学习。集成学习是通过多个“基学习器”也叫“个体学习器”的不同组合算法,获得更优泛化性能更...
2019-03-20 18:04:43
442
转载 大数据用户画像方法与实践(干货 转帖)
在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是 信息技术的自然延伸,意味着无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT...
2019-02-18 21:16:22
1297
原创 TF-IDF探秘
1.TF:词频,IDF:逆文本概率。存在的文本个数越多,值越小。 用户量改成pv?2.IDF计算:IDF(x)=log(N/N(x)),N为文本总数,N(x)为包含x的文本数 未出现的话,N(x)=0 ----》IDF(x)=log(N/(N(x)+1)工具调研:1)结巴分词 ok。同时可以进行关键词提取2)nlpc-wordrank:Term重要性和主干分析。Term重要性对组成que...
2018-12-11 07:28:04
309
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人