
挖掘算法
seu_yang
这个作者很懒,什么都没留下…
展开
-
基于决策树系列算法(ID3, C4.5, CART, Random Forest, GBDT)的分类和回归探讨
现在的r或者spark集成的机器学习包里面,基于决策树的算法都分回归或者分类。而实际这些回归可能和我们平常的理解存在一些偏差,因此写下此文一起探讨!决策树常见算法有以下几种:ID3算法主要思想是根据信息增益来进行节点分裂时的特征选择。即贪心的选取信息增益最大的特征来作为分裂依据。C4.5算法是ID3算法的改进版,用信息增益率来进行feature选择,利用二分方式原创 2016-07-22 17:18:53 · 2041 阅读 · 0 评论 -
决策树、贝叶斯、人工神经网络、K-近邻、支持向量机等常用分类算法小结
单一的分类算法:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类,HMM组合分类算法:Bagging和Boostingk-近邻(kNN,k-Nearest Neighbors)算法找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。 模型输入要求:连续值,类别型变量需进行one-hot编码,由于是原创 2016-07-19 18:18:15 · 33906 阅读 · 1 评论 -
lookalike 人群扩散调研
2013年3月19日,Facebook推出Lookalike Audiences,是一种「以人找人」的概念,可以根据Custom Audiences所筛选出的用户名单为参考,再筛选出「另一批用户」是与其相似的受众,让广告主可以将广告投递给此名单内的用户。第一个「人」指的是透过Custom Audiences所筛选出的用户,找到的「人」是指与其相似兴趣的另一批用户。2014年阿里妈妈推出原创 2016-07-20 11:02:39 · 6890 阅读 · 0 评论 -
lookalike 人群扩散算法
1.利用用户画像,给用户打标签,利用相同标签找到目标人群实例:美的豆浆机通过Youmi DSP进行了Look-alike人群扩展投放有米广告取得美的家电第一方消费者数据,涵盖浏览、购买行为等ID信息。通过导入Youmi DMP进行全库记录匹配,找到个体的在线历史大数据。经由人群分析模型,有米洞察到美的用户的个性倾向特征,通过标签算法挖掘,将数据库中拥有高相似画像的人群列为一类精准用户。根据原创 2016-07-20 18:26:15 · 39465 阅读 · 0 评论 -
树模型和线性回归 在回归问题中的比较
最近使用GBRT和LR解决回归问题,总体来说发现GBRT能很快收敛,且误差mse通常比lr小。但使用过程中发现利用GBRT进行回归大部分情况的回归值都接近真实值,但也会存在一些错的很离谱的回归值,反而lr对所有的回归样例都能表现的中规中矩。举个例子:假设问题为需要评价一个淘宝店商户的价值高低,我们需要利用该淘宝店的 历史的上月pv,uv,点击,交易量,评价,好评数,星级等预测其下个月可能产生的原创 2016-09-04 15:26:37 · 5252 阅读 · 0 评论 -
机器学习--损失函数
介绍损失函数之前首先介绍两种风险:经验风险和结构风险 1) 经验风险最小化的策略认为,根据已知样本,求得误差最小的模型最优,即经验风险最小的模型就是最优的模型。(经验风险最小能保证模型在训练集上取得较好的效果,但当训练集较小时,训练集不能代表全体样本,从而导致模型泛化能力差),通常形式为:其中f(x)为预测结果,y为实际结果 机器学习——损失函数 > image201原创 2016-09-05 19:35:46 · 1487 阅读 · 0 评论 -
机器学习——防止过拟合
所谓过拟合就是由于过度学习训练样本,而导致该模型眼里容不下别的样本,从而对训练样本之外的样本接受能力差,导致模型无法具有很好的泛化能力。防止过拟合的方法有多种,上一篇文章中结构风险最小化提到的正则化项,就是为了防止模型过拟合,模型复杂度过大的一个模型修正条件。从样本上来说:增加样本的全面性和数量从模型上来说:训练模型的同时限制模型复杂度,增加1范数和2范数,如线性回归的优化岭回归从训练原创 2016-09-07 09:50:58 · 863 阅读 · 0 评论