
推荐&统计系统
文章平均质量分 77
liyonghui123
唐山人士
展开
-
关于推荐个人观点
回想起来,我也做推荐了3年多了,最近公司做了调整招聘了很多算法工程师,以为需要多么高大上的算法才能搭建起来的,从实践中走过来,我只想说【不是这样的】 第一次接触推荐系统是在四年前入职的时候,那时候,机器学习和大数据都是没有的概念,什么大数据处理开源软件根本不存在,我们用多台计算机web程序记录用户行为,用.net的wcf框架实现了和现在mapreduce一样的功能,分析了用户...原创 2014-06-12 15:36:25 · 278 阅读 · 0 评论 -
nginx日志切割并使用flume-ng收集日志
nginx的日志文件没有rotate功能。如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件。第二步向nginx主进程发送USR1信号。ng...原创 2014-09-22 15:51:56 · 468 阅读 · 0 评论 -
关联算法增量实现原理
public class Test { /** * 打印一个数组所有的非空子集 */ public List<String> printAllSubsets(Integer[] array) { if (null == array || 0 == array.length) { throw new Ille...原创 2014-08-12 18:00:28 · 196 阅读 · 0 评论 -
flume-ng配置参数详解
(说明,名词对应解释 源-Source,接收器-Sink,通道-Channel) 配置 设置代理 Flume代理配置存储在本地配置文件。这是一个文本文件格式,是Java属性文件格式。在相同的配置文件,可以指定一个或多个代理的配置。配置文件包括每个源,接收器和通道,把它们连接在一起,形成数据流。...原创 2014-07-31 14:51:16 · 1568 阅读 · 0 评论 -
Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2整合
Flume-1.5.0+Kafka_2.9.2-0.8.1.1+Storm-0.9.2 分布式环境整合# 整合场景使用Flume监控指定目录,出现新的日志文件后将文件数据传到Kafka,最后由Storm从Kafka中取出数据并显示、、、# Flume+Kafka的整合# Flume的fks001.conf的配置文件监控指定目录/usr/local/yting/flume/tdata/td...原创 2014-07-22 10:12:40 · 422 阅读 · 0 评论 -
超越算法来看待个性化推荐
一提到个性化推荐,大家一般会想到协同过滤、文本相似等推荐算法,或是更高阶的模型推荐算法,百度的张栋说过,推荐40%取决于UI、30%取决于数据、20%取决于背景知识,虽然本人不是很认同这种比例,但推荐系统中,推荐算法起的作用起的作用是非常有限的。 就像任何数据挖掘应用一样,算法不是起决定作用的,背景知识、数据很重要。通过算法或数学模型来描述和解决问题,我觉得是工...原创 2015-01-08 11:21:50 · 185 阅读 · 0 评论 -
本地日志rar压缩备份传输到其他机器上
本地日志按照文件命名日期使用rar压缩,并远程备份传输到其他机器上,留作分析的批处理文件,大家参考。 ::演示:删除指定路径下指定天数之前(以文件名中包含的日期字符串为准)的文件。 ::如果演示结果无误,把del前面的echo去掉,即可实现真正删除。 ::本例假设文件名中包含的日期字符串(比如:ClickLog_20110805.txt)...原创 2014-07-12 15:42:13 · 226 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器基于统计的分类器一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震...原创 2014-07-01 14:57:29 · 400 阅读 · 0 评论 -
Frequent Pattern 挖掘之二(FP Growth算法)
Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达 到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。...原创 2014-06-27 14:17:36 · 397 阅读 · 0 评论 -
k-means和knn算法区别
k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类...原创 2014-06-27 10:58:36 · 499 阅读 · 0 评论 -
K-Means聚类算法理解
k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类(即下面c个类别)以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算...原创 2014-06-26 18:18:07 · 413 阅读 · 0 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
1.置信度(confidence)定义:设W中支持物品集A的事务中,有c %的事务同时也支持物品集B,c %称为关联规则A→B 的可信度。通俗解释:简单地说,可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率有多大。实例说明:上面所举的圆珠笔和笔记本的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了圆珠笔,那么他也购买笔记本...原创 2014-06-25 17:04:49 · 1801 阅读 · 0 评论 -
knn距离公式比较
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x...原创 2014-06-24 18:47:23 · 1479 阅读 · 0 评论 -
KNN推荐系统应用
如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍——向上营销、交叉营销与关联推荐;关联推荐是基于用户行为分析的推荐,而相关内...原创 2014-06-24 18:35:58 · 924 阅读 · 0 评论 -
常用推荐算法
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐 基 于内容的推荐(Content-based Recommendation)是信息过滤技术...原创 2014-06-19 10:54:05 · 1128 阅读 · 0 评论 -
关联规则—频繁项集Apriori算法
频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果。关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人为设定的一个阈值即支持度 (support)来衡量,“紧密”也是由人为设定的一个关联阈值即置信度(confidence)来衡量的。这两种度量标准是频繁项集挖掘中两个至关...原创 2014-06-16 13:04:38 · 10254 阅读 · 0 评论 -
Apriori算法求数组的非空子集java代码
Apriori算法求集合的非空子集java代码 public class Test { public static void main(String[] args) { String str="abcd" ; //用Set集合保存结保证内容重复 Set<String>...原创 2014-06-16 12:49:39 · 390 阅读 · 0 评论 -
推荐ABTest的实现策略总结
1. 背景介绍 一个新推荐算法或者新策略开发完毕之后,在全流量上线之前要评估新功能或者新策略的优劣,常用的评估方法是A-B测试,做法是在全量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估出新策略的优劣,进而决定新策略是否全流量。抽样是指按照某种确定的随机化方法,对线上流量进行划分。抽样可以指这种划分的方法,也可以指划分得到的...原创 2014-11-08 12:22:20 · 3271 阅读 · 0 评论