
Machine Learning
机器学习
Kelly Fu
这个作者很懒,什么都没留下…
展开
-
Supervised Classification——Logistic Regression Classification
目录1. 理解2. 方法3. 代码1. 理解Logistic regression classifier实际上就是将所有的特征乘以一个权重然后相加起来得到一个值(跟线性回归一样),将这个结果输入到一个sigmod函数中,我们就会得到一个0-1之间的值(返回一个概率值)。 当这个值大于0.5, 我们将这个实例分为类别1;小于0.5,则归类为类别0。该分类可以应用于判断邮件是否是垃圾邮件、交易是否是欺诈以及肿瘤是否良性还是恶性。2. 方法3. 代码...原创 2020-06-25 04:33:47 · 492 阅读 · 0 评论 -
Supervised Classification——Decision tree
目录1. 理解2. 方法3. 代码参考1. 理解决策树分类算法就是在训练集上建立一个决策树,树的节点是划分树的属性,算法关键就是如何去选择划分的属性。当我们确定好了这个决策树,就可以对测试集的数据进行分类了。我们需要一个指标(Attribute Selection Measures (ASM)),去评估哪一个属性划分的树更好。常见的指标有Information Gain、Gain Ratio and Gini Index。 这些指标实际上是来源于香农(Shannon)的Information The原创 2020-06-19 04:47:49 · 658 阅读 · 0 评论 -
Supervised classification——KNN
目录1. 理解2. 方法3. 代码1. 理解2. 方法3. 代码原创 2020-06-05 00:42:12 · 671 阅读 · 0 评论 -
Unsupervised clustering—— KMeans
1. 理解简单来说, 无监督聚类也是对数据实体的分类,只是在这个分类过程中,没有一个标签告诉你这个实体应该属于哪一类, 分类的准则实际上是数据实体本身的相似度。 这里相似度(similarity measure)的衡量常见的是距离(e.g. euclidean-based distance or correlation-based distance)。KMeans算法是最典型的无监督聚类算法。 K代表了有K个类别,这是用户需要自定义的。也可以说是K个中心点(cluster centers/centrio原创 2020-06-04 05:10:30 · 3052 阅读 · 0 评论 -
PCA主成分分析
目录1. 理解2 方法3 代码3.1 numpy3.2 Sklearn1. 理解PCA是一种无监督学习的数据降维度的方法。 简单来说, 就是将原始数据映射到一个特征空间,以达到数据维度降低的目的。这个特征空间就是由主成分构成的空间。主成分本质上来说就是原始数据变量的一个线性组合。 理论上来说,主成分的数量最多可以等于原始数据的维度。事实上, 在解决实际问题时, 我们可以允许极少部分信息的损失。因此, 我们可以选择一小部分主成分来构成我们的特征空间,通过将原始数据映射到这个特征空间来达到降维的目的。数据原创 2020-05-16 20:13:06 · 889 阅读 · 0 评论