
ML/DM
文章平均质量分 78
hitwengqi
这个作者很懒,什么都没留下…
展开
-
常用相似性度量(距离 相似系数)
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)相当于转载 2012-08-25 18:05:21 · 8163 阅读 · 0 评论 -
机器学习开源工具及licence
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statement。我通过浏览各开源工具网站,对其licence agreement进行了一下了解,在这里简单贴上其遵循的licence,希望有用。如果实际商用或者其他用途,还须仔细到个网站查询或联系developers。由于版本的升级,相应的licence也会有一定的改动,需要注意。如转载 2012-08-25 18:03:12 · 2276 阅读 · 0 评论 -
模式识别技术漫谈
模式识别技术漫谈(1) ------引言 在人工智能技术(Artificial Intelligence)领域中,模式识别(Pattern Recognition)技术也许是最具有挑战性的一门技术了,模式识别有时又被转载 2012-08-25 18:04:07 · 3421 阅读 · 1 评论 -
机器学习书籍论文推荐
基本模型:HMM(Hidden Markov Models): A Tutorial on Hidden Markov Models and Selected Applications inSpeech Recognition.pdfME(Maximum Entropy): ME_to_NLP.pdfMEMM(Maximum Entropy Ma转载 2012-11-17 21:08:27 · 2050 阅读 · 0 评论 -
初窥SVM
今天和师兄交流了一番,终于对SVM有了初步的理解,虽然觉得自己还是很小白,但是有收获、有进步就好。SVM处理流程(待修正):1. 收集数据,相关性分析(p卡方检验),特征选择(主成份分析PCA)。PCA提取特征向量,用这些来分类,SVM是分类器,输入的就是特征向量。2. 归一化数据。就是根据实际要求,将数据的取值范围转化为统一的区间如[a,b],a,b为整数。3. 利用抽原创 2013-03-14 22:36:10 · 2829 阅读 · 1 评论 -
Shark Machine Learning Library 安装配置运行
这两天开始折腾ML的开源库,ML的开源库有很多,比如Torch,MLC,Weka(基于java),Waffles,Shark,scikit,opencv-ml,等等,综合比较了各个开源库的优劣,决定搞搞以下几个库:1. Shark,基于c++2. scikit,基于python3. weka,基于java4. opencv-ml,基于c++,图像处理中用的比较多,之前已接触过花原创 2013-05-29 17:24:09 · 8948 阅读 · 9 评论