
Data Mining
文章平均质量分 66
llwszjj
这个作者很懒,什么都没留下…
展开
-
模式与人工神经网络
一、 模式1.什么是模式:广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。2.模式的直观特性:可观察性、可区分性、相似性3.模式识别的分类:监督学习、概念驱动或归纳假说;非监督学习、数据驱动或演绎假说。4.模式分类的主要方原创 2013-11-20 23:40:57 · 1385 阅读 · 0 评论 -
svd /svd ++ movielens
语言:Python算法:SVD预测函数条件函数 使用随机梯度下降法这里,所有参数的regularization值( )是一样的,不用特别区分 , 和 p,q, 不需要初始化,全部设成0 P,Q应该的初始化,一般使用 0.1 * rand(0,1) / sqrt(dim) dim指特征的维数 预测分数时,范围要限制在最小值和最大值内原创 2014-05-23 16:22:19 · 2300 阅读 · 0 评论 -
movielens大数据存储技巧
代码用java写的,开始时候想把数据留在外存,计算的时候一行行地读进来,发现内存使用很多,想到Java的String实际释放比较难控制,干脆改成所有东西存成byte数组,直接用inputstream去读取。后来发现需要保存每个用户的打分信息反复迭代,索性把数据集全读进内存算了。那么要存上千万的rating就得省着点用。itemid和打分用一个int表示3个字节表示itemid,1个字节表示打分,打原创 2014-05-23 16:35:46 · 1558 阅读 · 2 评论 -
数据流挖掘_Flajolet-Martin算法
在实际应用中,我们经常碰到这种情况,即要统计某个对象或者事件独立出现的次数。对于较小的数据量,这很容易解决,我们可以首先在内存中对序列进行排序,然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n)),扫描时间复杂度为O(n),所以总的时间复杂度为O(n*log(n))。当内存非常充裕时,我们还可以考虑使用哈希,将时间复杂度降到O(n)。尤其是当元素只能取有限范围的整数值时,我原创 2014-05-12 16:00:21 · 3603 阅读 · 1 评论 -
mahout各个版本下载地址
http://archive.apache.org/dist/mahout/archive.apache.orgThis site contains the historical archive of old software releases.For current releases, please visit the mirrors. Name原创 2014-05-15 10:31:59 · 2306 阅读 · 0 评论 -
R语言实现电影评分推荐
recommenderlab 是R语言非常强大的包,能帮助使用者针对评分数据或者0-1(不喜欢/喜欢)二分数据开发和测试推荐算法,本文就是利用该包对于 movielens 的电影评分数据进行预测和推荐,会对比基于用户的协同过滤和基于项的协同过滤在推荐效果上的差别。1 获取电影数据电影数据来源于http://grouplens.org/datasets/movielens/网站,本文原创 2014-05-02 19:26:52 · 9060 阅读 · 0 评论 -
特征选择
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其原创 2013-12-06 13:08:06 · 987 阅读 · 0 评论 -
weka基本知识
无意间在网上看到了:http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code,相对我写的代码,它的当然更有权威性。翻译完了,第一次翻译,术语的汉语很多不清楚。还没有校对,有什么错误请告诉我。你可能要用的最常用的组件(components)是:l Instances 你的数据l Filter 对数据的预处理原创 2013-12-05 13:25:04 · 3252 阅读 · 1 评论 -
weka文本分类
前些日子基于weka初步做了一下文本分类,使用的是最频繁使用的矢量空间模型(Vector Space Model),即假设正负样本在特征空间的分布迥异,基于某种规则将它们转化为矢量,然后训练分类器来区分这些矢量,测试样本来时送进分类器进行分类就行。在我的实验里面,特征降维使用的是基于TFIDF的特征选择,分类器使用的是朴素贝叶斯(naïve bayes)分类器。 前期预处理原创 2013-12-06 00:02:12 · 6265 阅读 · 2 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯原创 2013-12-11 23:58:07 · 645 阅读 · 0 评论 -
现代信息检索 王斌 2012年秋季期末试题
中国科学院研究生院 课程编号:71258-Z-2 试 题 专 用 纸 课程名称:现代信息检索 任课教师:王斌——————————————————————————————————————————原创 2013-12-16 11:16:55 · 3870 阅读 · 0 评论 -
weka的一些问题
第一个问题 Error MessageNot enough memory. Please load a smaller dataset or use larger heap size.原因:This error message appears when a user attempts to load or process a dataset that WEKA can原创 2013-12-05 01:49:11 · 6264 阅读 · 0 评论 -
ID3
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplay原创 2013-12-12 18:40:29 · 775 阅读 · 0 评论 -
使用Weka进行数据挖掘
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato原创 2013-12-10 00:34:32 · 1854 阅读 · 0 评论 -
对weka 度量分类模型优劣指标的说明
示例如下:=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.93 0.002 0.989 0.93 0.959 0.997 体育 0.93 0原创 2013-12-06 11:53:09 · 2200 阅读 · 0 评论 -
数据挖掘十个经典算法
一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。二、The k-means algorithm即K-Means算法 k-means alg原创 2013-11-22 15:24:14 · 1077 阅读 · 0 评论 -
判别函数、贝叶斯、K—L变换、句法模式识别
判别函数、贝叶斯、K—L变换、句法模式识别原创 2013-11-20 23:56:38 · 1473 阅读 · 0 评论 -
聚类方法
常见的几种聚类分析的方法原创 2013-11-20 23:50:44 · 908 阅读 · 0 评论 -
基于Mahout的电影推荐系统(MVC架构)
源代码下载地址:http://download.youkuaiyun.com/detail/huhui_bj/5248056参考资料:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/http://blog.sina.com.cn/s/blog_541086000100qh2j.htmlQQ:667818771 Ma转载 2014-05-02 19:07:30 · 2776 阅读 · 0 评论