
机器学习
cxlhuihui
技术之路无止境.......
展开
-
用户画像和系统推荐
1.隐语义模型2.word2vector模型在推荐系统当中的应用3.推荐系统评估指标打分系统:均方根,平均绝对误差top n 推荐:准确率(推荐正确的/推荐的)vs召回率(推荐正确的/用户实际浏览的)覆盖率(对平台而言):推荐系统消除马太效应,覆盖率计算商品的曝光率,引入信息商,每个商品曝光的概率一样时信息熵最大多样性(对用户而言推荐item不是单一的):相似度时效性等。。。4.推荐系统(基于内容...原创 2018-04-19 16:43:07 · 1371 阅读 · 0 评论 -
机器学习-总览
1.分类就是学习一个决策边界2.过拟合和正则化(减缓过拟合的方法)3.最大间隔分类器SVM,本身是线型切分,想变化成非线型切分是需要加入核函数,低纬度没办法切开所以要映射到高纬度当中切分。4.决策树 ID3,c4.5,cart选特征,对应的筛选指标信息增益、增益率、基尼系数。5.随机森林,选择部分特征,放回抽样。6.分桶时间numpy.digitize(x,bin)取到桶的id7.数据可能在不一样...原创 2018-06-29 13:25:18 · 186 阅读 · 0 评论 -
机器学习-特征选择
1.特征筛选1)计算变量的相关性,对线性模型一般有效,非线性效果不明显。2) 给予模型的特征选择,如lr选择正则化或随机森林输出特征的总要度。3)RFE逐步特征选择。sklearn在工业界通常不考虑效率,真正工业界用xgboost和lightgbm多。2.模型评估和参数调优1)数据切分、可能切偏,真正使用数据乱序加上交叉验证。2)k折交叉验证(分层抽样通常,保证比例),交叉验证得分。3)网格搜索,...原创 2018-06-29 14:31:23 · 458 阅读 · 0 评论 -
机器学习-xgboost
xgb中参数分为三类1.通用参数2.集成参数3.任务参数1)随机森林在ligthgbm(有很多集成算法)中有,里面更全。2)xgboost(里面有gdbt是树的串型叠加的各种包,梯度增强的方法)里面没有随机森林包。 xgboost是一个支持多种数据格式的库。libsvm数据存储格式,xgboost里面的数据格式xgboost.DMatrix(数据)3)交叉验证是一个评估方法,是xgb自带的函...原创 2018-06-29 18:02:13 · 267 阅读 · 0 评论