
DM
文章平均质量分 50
maokunnn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TF-IDF探秘
1.TF:词频,IDF:逆文本概率。存在的文本个数越多,值越小。 用户量改成pv?2.IDF计算:IDF(x)=log(N/N(x)),N为文本总数,N(x)为包含x的文本数 未出现的话,N(x)=0 ----》IDF(x)=log(N/(N(x)+1)工具调研:1)结巴分词 ok。同时可以进行关键词提取2)nlpc-wordrank:Term重要性和主干分析。Term重要性对组成que...原创 2018-12-11 07:28:04 · 312 阅读 · 0 评论 -
大数据用户画像方法与实践(干货 转帖)
在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是 信息技术的自然延伸,意味着无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT...转载 2019-02-18 21:16:22 · 1299 阅读 · 0 评论 -
集成学习Ensemble Learning
1.集成学习概念在有监督学习过程中,我们希望训练得到一个各方面表现都很好的“稳定”的模型。但实际训练过程中,我们常常训练得到的是在某个方面表现较好的模型,这样的模型可以训练出很多,他们的擅长的方面也不完全一样。这时候我们就会想要通过“模型组合”或者叫“模型融合”的方式来获得更好更稳定的模型。这个过程也叫集成学习。集成学习是通过多个“基学习器”也叫“个体学习器”的不同组合算法,获得更优泛化性能更...原创 2019-03-20 18:04:43 · 445 阅读 · 0 评论 -
xgboost-spark-scala
今天学习写scala,拿xgboost试一下~先记一下xgboost调参要点:7.xgboost中比较重要的参数介绍(1)objective [ default=reg:linear ] 定义学习任务及相应的学习目标,可选的目标函数如下:“reg:linear” –线性回归。“reg:logistic” –逻辑回归。“binary:logistic” –二分类的逻辑回归问题,输出为概...原创 2019-04-07 23:59:41 · 1300 阅读 · 0 评论 -
根据图像生成描述
http://www.zhuanzhi.ai/topic/2001990892850700/awesome转载 2019-07-08 20:44:10 · 1362 阅读 · 0 评论 -
威尔逊分
威尔逊得分排序算法,Wilson Score,用于质量排序,数据含有好评和差评,综合考虑评论数与好评率,得分越高,质量越高。源码参考:https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.pyWilson Scoreu表示正例数(好评),v表示负例数(...转载 2019-07-01 13:38:40 · 1188 阅读 · 0 评论