数据分析
文章平均质量分 65
binsfan
aaa
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce算法、模式
a请选择文章类型到底是什么鬼原创 2015-07-22 17:39:21 · 648 阅读 · 0 评论 -
[总结]集体智慧编程中用到的数据评估模型
做数据分析时,数据间权重和距离的计算是最常见的也是很重要的问题。快速扫了一遍集体智慧编程的相关分类,推荐算法后,对数据的建模预处理整理总结下,以备以后使用。一、数据间的相似度,距离计算1.欧几里得距离(第二章)最简单直观的计算方式,直接计算两组数据间的属性距离,对每一项属性求差平方和再相加开平方。值域[0,正无穷),可以取倒数1/(1+dis)。映射到(0,1]的区间,值越大距原创 2015-07-18 09:21:29 · 1030 阅读 · 0 评论 -
[大数据]flume日志收集
工作中再次使用到了Flume,记录下flume配置过程中的一些问题。涉及到的知识点:flume,exec source,file channel,avro sink,cumtom sink开发一、引言首先,为什么使用flume肯定不需要再说明了,成熟的技术框架,各大公司都采用的技术解决方案。现在的FlumeNG是个轻量级的工具,脱离hadoop,用作别的日志收集,实原创 2016-04-11 20:17:48 · 2873 阅读 · 0 评论 -
[机器学习]贝叶斯垃圾邮件过滤算法
贝叶斯分类属于监督学习范畴,所以就需要有训练集Set,以及特特征单词W1,W2...Wn,Y={1,0}训练过程:对于Y=1的正例样本 计算 P(W1|Y1),P(W2|Y1)...,P(Wn|Y1) : p(wi|Y1)= sum(wi)/sum(Y1)对于Y=0的负样本 计算 P(W1|Y0),P(W2|Y0)...P(Wn|Y0) ....训练完成后,对于要原创 2016-06-03 18:01:51 · 1108 阅读 · 0 评论 -
[大数据]ItemBased协同过滤hadoop实现
协同过滤算法这里就不再叙述了随便说一点,通常我们使用的基于物品和用户的协同过滤算法于AndrewNG的机器学习描述的有些不一样视频中虚拟了一个X出来,然后通过梯度下降法不断的计算X和theta使costFunction(与y关联)最小。实际使用中,X这个表示物品的特征参数已经去掉了,直接使用Y(用户对物品的评分)来计算物品(用户)相似度以及做推荐这里我们定义 物品uv的相似原创 2016-06-13 09:50:02 · 2273 阅读 · 1 评论 -
基于时间序列的用户预测模型
前段时间帮朋友做了个电信学院的竞赛题已知用户一个月前27天的浏览和操作记录要求根据月末三天的用户帖子的打开情况来预测月末三天用户的点赞或踩行为这是个典型的分类问题,对与一个用户浏览记录 判断用户是否会操作,进一步预测是点赞或者踩由于给的特征是基于时间的日志记录,所以也可以定义为时间序列的用户行为预测分类问题可以用LR,RF,GBDT,XGBoost,SV原创 2016-07-13 14:11:18 · 8616 阅读 · 0 评论
分享