
机器学习
iteye_424
这个作者很懒,什么都没留下…
展开
-
用libsvm完成分类试验
(1)下载一个libsvm的.net 的包(2)然后把自己的数据整理成libsvm的输入格式。(3)使用训练数据得到训练结果(4)使用训练结果+测试数据,得到测试结果。(5)怎么调节libsvm的参数就不知道了。需要根据应用的要求,数据的特点来修改参数(6)验证测试的结果。观察分类是否正确libsvm,A Library for Support Vector Machineshttp:/...2008-04-25 13:02:00 · 110 阅读 · 0 评论 -
Machine Learning (Stanford)
http://www.youtube.com/watch?v=UzxYlbK2c7EVery good!We are in a greate time. We don't need take a site in Stanford unversity.But we can learn their class as well,even more clearly.2008-10-31 19:47:00 · 95 阅读 · 0 评论 -
国内电子论文的收费和封闭性阻碍了中国技术的发展
看看国外大量的论文可以通过网上获取,别人获取论文的成本非常低。他们花在研究上面的时间就更多,更能促进学术的进步与交流。国内的学术机构太过于呆板、急功近利,让人感到扼腕叹息。@beijing...2008-11-24 14:21:00 · 113 阅读 · 0 评论 -
提高多个关键词搜索速度的方法
对网页中的关键词不以一个单词作为索引,而使用短语(多个词语,专有名词的结合),如 “bei jing” 合并和beijing,“自行车 轮胎”合并为“自行车轮胎”,这样减小搜索结果合并的工作量。...2008-11-24 14:26:00 · 299 阅读 · 0 评论 -
相关实体或者类目的分析
1、根据关联规则推荐。如果A,B都购买了x,并且A购买了y,那么b也可能购买y。通过关联规则可以知道这些商品x和y可能是相关的。根据关联规则,可以知道那些类目是相关的。2、是否可以通过实体关系的挖掘,知道哪些实体是相关的。...2008-11-25 10:34:00 · 166 阅读 · 0 评论 -
信息增益和马尔科夫
信息增益 H(Y) - H(Y|X)2008-11-30 22:45:00 · 86 阅读 · 0 评论 -
weka 资源列表
http://www.shen-wei.cn/shenwei/Html/?8460.html原创 2010-02-04 22:14:15 · 143 阅读 · 0 评论 -
一句话理解概念
明白了几个概念: 协方差描述两个变量之间的关系。两个都上升,协方差是正值;一个上升,一个下降,为负值;如果没有明显的关系,协方差接近零。 f-measure: 综合考虑准确率和召回率。准确率和召回率都要高,值才是高。http://en.wikipedia.org/wiki/Information_retrieval 谱理论(矩阵的谱分解)htt...2009-09-08 14:38:42 · 132 阅读 · 0 评论 -
深入搜索引擎--查询(Query)
[b]1.Query的数据分析[/b] Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大...原创 2012-03-12 22:56:21 · 765 阅读 · 0 评论 -
深入搜索引擎--机器学习方法
机器学习方法在搜索引擎、计算广告中简直是无处不在。[b]spider模块,我们需要分析一个URL需要多长时间抓取一次?[/b] URL的域名的重要性;URL的目录深度;URL中字符串;[b]这个URL是否需要重复抓取?重复抓取的时间是多少?[/b] 抓取过几次;网页内部有多少新的链接数量?[b]一个网站多长时间抓取页面合适?[/b][b]一个网站的重...原创 2012-03-14 22:41:37 · 187 阅读 · 0 评论 -
张学工: 关于统计学习理论与支持向量机
终于基本上看懂了这篇文章。对于VC维的理解可以看这篇文章:《 VC-dimension for characterizing classifiers 》。2008-10-16 07:35:00 · 278 阅读 · 0 评论 -
支持向量机的原理
很早就买了《数据挖掘中的新方法--支持向量机》,一直没有认真看。最近复习了向量,空间,矩阵,然后从头开始看发现逐渐看出一些门道了。支持向量机,开始给人的感觉很高级,其实也是一类求最大值的问题。只是样本都是一些向量,划分的时候也是用直线去划分。这是一类求最大化,最小化求值。一切都是从简单的二维点的划分开始的。了解二维点的划分,对支持向量机就开始入门了。非线性划分,也是转化到线性...2008-10-15 23:03:00 · 125 阅读 · 0 评论 -
统计机器学习的应用(模式分类的方法)
机器学习的理论很深奥,但应用起来是比较简单的。 不管你想用贝叶斯、神经网络、SVM、决策树、线性回归,还是其他什么机器学习方法。你首先要关注两点: 1.选择训练样本 选择正例和反例的样本;如果是多类,那么每类都要选择样本。选择恰当的正反类分类标准,是保证分类满足需求的一个必要条件。 选择样本需要特别注意,样本要比较平均,正反类比...2009-07-06 15:20:19 · 336 阅读 · 0 评论 -
推荐系统的几个阶段
推荐系统在大量的网站中都用所应用最开始是关联规则挖掘。基于频繁集的挖掘。范围是所有用户和商品直接挖掘。然后是协同过滤的挖掘。基于用户的推荐。范围是用户相似的用户和他们感兴趣的信息。内容推荐。是信息内容的抽象特征和用户的特征向匹配对应。基于协同tag推荐。就是 用户的兴趣点 和 商品特征和匹配对应。以下推荐几篇推荐系统方面的论文:amazon.com recommendat...2009-02-06 10:53:00 · 894 阅读 · 0 评论 -
马尔科夫 与 推荐系统
能否把推荐系统看成一个马尔科夫过程。把用户购买的东西当成一个马儿科夫链。链中的每个结点就当成一个spu(或者类目)。通过每个结点的发散概率。这样当用户买了商品的时候,就可以根据他买的spu推荐他将要买的东西。...2009-02-09 12:50:00 · 410 阅读 · 0 评论 -
层次聚类的时间控制
聚类的关键在于根据数据特征导出距离函数。找到距离函数,聚类就成功了一半了。距离函数包括两个样本直接的欧式距离,余弦相似度,person相似度等等。根据不同的情景,选择不同距离函数。距离函数可以另外增加一些类别信息,如控制每个类别下样本的个数。(1)控制聚类的层数非常重要。控制层数,可以控制,最终的聚类结果,关键是减少时间。(2)当有几万个样本,要聚成几千个类的时候。减少每个样本和其他样本...2009-02-17 14:40:00 · 188 阅读 · 0 评论 -
Graph partition
所有的点组成一个图的形式。聚类问题就变成一个图的切分问题。把相距近的东西一团一团的切出来。最后就得到n个子图,也就是分成了n个类目。2009-02-17 15:49:00 · 401 阅读 · 0 评论 -
层次聚类与分类规则
层次聚类,通过设计相似性函数(或者聚类函数),可以非常方便的实现无监督的聚类过程。但是相似性阈值太高,得到类目太多,达不到聚类的目的;阈值太低,类目少,但是准确性就会降低。在这个时候,使用一些分类规则,当相似度很高的时候,当满足一些规则,就降低其相似度,这样可以得到合适的类目个数,同时得到比较满意的准确率。...2009-03-05 14:30:00 · 297 阅读 · 0 评论 -
几个问题
分类和聚类有什么区别?常用的算法是什么?怎么做搜索引擎的摘要?Svm的参数怎么调整?C++ 的STL有哪些容器?怎么使用。2008-07-09 12:10:00 · 97 阅读 · 0 评论 -
关联规则
关联规则,推荐系统http://www.guwendong.cn/post/2008/fpgrowth_algorithm.html http://www.guwendong.cn/post/2006/item_based_collaborative_filtering.htmlslop one 算法http://www.cnblogs.com/kuber/archive...2008-07-16 23:44:00 · 226 阅读 · 0 评论 -
相似性计算
public double CosSim(HashMap<String, Double> hashA,HashMap<String, Double> hashB,double sa,double sb) { double sum=0; HashMap<String, Double> tmp=null; if (has...2009-03-18 17:43:00 · 124 阅读 · 0 评论 -
fp growth 实现
近日,准备使用fp growth写个程序,挖掘频繁模式。但是从han jia wei哪里下载的c语言程序效率非常低。根本不能满足大数据量的要求。仔细分析源代码发现,fp growth需要生成很多棵树,每个结点路径都需要保存,还是非常消耗资源的。考虑之后,使用hadoop编写了一个简单的fp growth,总是耗尽java的内存。最后,限制了结点的数量,得到一个计算结果。...2009-03-21 10:39:00 · 103 阅读 · 0 评论 -
优快云对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前g...2012-03-16 12:55:23 · 240 阅读 · 0 评论