
Machine Learning
文章平均质量分 63
JUAN425
这个作者很懒,什么都没留下…
展开
-
data cleaning(数据清洗) 课程笔记
该课程主要在使用ML, data mining 等数据分析技术zhi翻译 2014-08-11 22:29:12 · 5260 阅读 · 0 评论 -
SVM(Support Vector Machines):支持向量机
支持向量机以前很火了。 现在风头被深度学习给占据了。原创 2015-03-30 21:06:54 · 1596 阅读 · 0 评论 -
音乐推荐系统
一个music recommender system主要有三部分组成:(1) users(用户)(2) items(即音乐库中的很多音乐)(3) user item matching algorithms(用户听过的音乐匹配算法)User profiling 解决的是不同的users的profile的的差异性。 这一步的目的就是使用基本的信息对用户的music taste进行划分。原创 2015-04-16 21:34:38 · 8793 阅读 · 2 评论 -
衡量分类器的性能指标
评价一个分类器的metric的确有不少。 error rate: 这个不讲了, 当然是错误率越低越好。不过值得提到的就是可以通过一个被称为confusion matrix的办法直观展示classification error。 继而可以引出三个指标。 如下一个three class problem:表示的意思是总共有8只猫, 6只狗, 13只兔子。 我们的分类器把这17只动原创 2015-04-06 12:25:04 · 5510 阅读 · 0 评论 -
Logistic regression---原理部分
Logistic Regression是一种利用非线性函数即sigmoid function对样本进行分类(常常是binary classification)的原创 2015-04-03 14:38:01 · 929 阅读 · 0 评论 -
Adaboost, boosting 和bagging的比较
Adaboost 算法很有名,全称是adaptive boosting。 曾被称为数据挖掘十大算法之一。 davide lowe那一篇关于人脸识别的文章中就用到了这个算法。 现在总结一些这个算法。Adaboost是一种基于boost思想的一种自适应的迭代式算法。 通过在同一个训练数据集上训练多个弱分类器(weak classifier), 然后把这一组弱分类器ensmble起来, 产生一个强分原创 2015-04-05 17:23:40 · 7867 阅读 · 0 评论 -
C++易忽略点
真的不想这样, 这样的题有啥意思, 谁会用到吗, 就当增加人知吧对一个数组取&的时候, 出现了如下的问题:#include int main(){ const int MAXN = 8; int a[MAXN] = {1, 2, 4, 8, 16, 32, 64, 128}; int *p = (int*)(&a + 1 ); printf("%d\n", *(p -原创 2015-04-01 21:26:46 · 555 阅读 · 0 评论 -
Bias 和 Variance的理解
bias-variance tradeoffs是有监督学习面临的一个重要的问题。我们希望达到的最佳的状态就是low variance, low bias。 一旦出现过拟合现象, 就容易造成low bias, high variance的线性, 欠拟合是high bias, low variance。对于线性模型中, 我们假设样本取自的分布为:好了, 我们根据这就可以求出最佳的hypos原创 2015-04-01 19:39:05 · 2808 阅读 · 0 评论 -
机器学习注意
任何一个机器学习算法包含两大步骤:(1)训练(training): 给定训练数据, 选择一个机器学习模型, 利用机器学习算法, 结合训练数据, 学习到模型参数。 学习参数需要选择一个objective funcion(有称为cost function), 目的就是找出使得这个目标函数的值达到最小的参数。(2)测试(testing): 利用学习到的模型, 进行预测。机器学习以及深原创 2015-04-01 21:09:49 · 609 阅读 · 0 评论 -
Linear models for regresion(回归)
线性回归模型使用的场景是有监督学习(supervised learning)。例如下例给定训练样本集, 输入特征是二维的,让我们去预测房价。 我们就可以使用线性回归模型去求解。 例如多项式拟合价格和输入二维特征向量的关系, 我们模型的参数就是多项式前面的那些系数。 首先回归(regression)的目的就是指根据给定一个d维的输入特征向量x, 预测出一个或者多个取值连续的ta原创 2015-04-01 16:07:07 · 1128 阅读 · 0 评论 -
决策树算法
在Journal of knowledge and Information Systems, 2007 上出现过一篇文章。 “Top 10 algorithms in Data Mining”。 其中这篇文章列出了数据挖掘中最常用的10大算法, 分别是: C4.5, K-means, SVM, Apriori, Expectation Maximization, PageRank, Adaboo原创 2015-03-27 14:28:07 · 5225 阅读 · 1 评论 -
机器学习与深度学习相关算法的学习
本人打算开始总结机器学习和深度学习的系列博客了。 以下是要总结的相关算法的内容了, 只是梗概, 后期会做调整的。(1)Supervised Technique:classifications:--- K nearest neighbour(K 近邻) --- Naive Bayes --- Classification Trees: CART, ID原创 2015-03-27 09:45:26 · 905 阅读 · 2 评论 -
Bayes classifier(贝叶斯分类器)
Bayes 分类器属于是统计分类(s)翻译 2014-10-27 18:48:38 · 2608 阅读 · 0 评论 -
Torch7安装
尝试了很多办法去安装Torch7。安装平台: 虚拟机 + ubuntu12.04, 32位机尝试过采用官网的办法安装, 网址如下:http://torch.ch/docs/getting-started.html#_但是failed.后来按照如下方式安装, 成功了。主要指令如下:如果之前安装过Torch7, 想重新安装, 按照如下方法clean掉old versio原创 2015-05-15 15:37:32 · 17487 阅读 · 2 评论