
机器学习与数据挖掘
文章平均质量分 92
mapw1993
工作之余来搞搞。
展开
-
[数据挖掘]离群点检测---基于kNN的离群点检测、LOF算法和CLOF算法
离群点检测LOF算法CLOF原创 2016-01-16 11:18:40 · 42091 阅读 · 1 评论 -
[机器学习]支持向量机及其应用---手写识别系统(SMO算法)
感知机支持向量机理论线性可分支持向量机线性支持向量机非线性支持向量机常见核函数SMO算法支持向量机的应用手写识别系统应用背景工具选择转换样本数据将txt文本转换为arff文件算法执行使用测试数据测试模型好坏与KNN算法实验结果对比参考资料本博文将介绍支持向量机的一些理论并使用WEKA来得到一个分类器。在介绍支持向量机之前,先介绍感知机的一些知识。感知机感知机是二类分类的原创 2015-12-22 21:43:34 · 3334 阅读 · 0 评论 -
[聚类算法]K-means优缺点及其改进
写在前:本文参考了国内一些硕士论文以及一些期刊。笔者会在后面写上具体的参考文献。仅供学习,请勿抄袭。K-means聚类小述大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择;原创 2016-03-14 11:05:06 · 47190 阅读 · 4 评论 -
[神经网络]2.1-How the backpropagation algorithm works-Warm up: a fast matrix-based approach ...(翻译)
在上一章中,我们看到神经网络通过随机梯度下降法可以学习权重和偏差。然而,之前我们没有解释过如何计算花费函数的梯度计算方法,这是个空白!在本章,我将会阐述一个计算这个梯度的快速算法,称为反向传播(backpropagation)算法。反向传播算法最初在20世纪70年代提出,但是直到1986年, David Rumelhart, Geoffrey Hinton, and Ronald Williams翻译 2016-02-27 13:27:02 · 1167 阅读 · 0 评论 -
[神经网络]2.2/2.3-How the backpropagation algorithm works-The two assumptions we need...(翻译)
The two assumptions we need about the cost function(2个关于成本函数的假设)反向传播的全局是计算网络的成本函数CC关于权重ww和偏差bb的偏导数∂C/∂w\partial C/\partial w和∂C/∂b\partial C/\partial b。关于反向传播的工作,我们需要做2个主要的假设。在开始假设之前,在头脑中有一个成本函数的例子是有用的翻译 2016-02-26 16:10:04 · 717 阅读 · 0 评论 -
[神经网络]1.7-Using neural nets to recognize handwritten digits-Toward deep learning(翻译)
Toward deep learning(走向深度学习)虽然我们的神经网络给出了令人印象深刻的表现,表现的有点神秘。他自动更改网络中的权重和偏差。这意味着我们不立即解释网络如何做。我们是否可以找到一些分类手写数字的原则?并且基于这些原则,使得我们的网络更好呢? 把这些问题更为明显,假设几十年后,神经网络将引导人工智能(AI)。我们将会明白智能的网络是如何工作的?也许网络会对我们不透明,也就是我们不翻译 2016-02-22 14:17:09 · 661 阅读 · 0 评论 -
[神经网络]1.6-Using neural nets to recognize handwritten digits-Implementing our network to classify(翻译)
说明:1.5讲的是梯度下降法,之前笔者对其已经有了总结,故此不再翻译学习啦。 原文地址:http://neuralnetworksanddeeplearning.com/chap1.html#a_simple_network_to_classify_handwritten_digitsImplementing our network to classify digits(识别数字网络的实现)好吧,翻译 2016-02-19 17:09:32 · 1015 阅读 · 0 评论 -
[神经网络]1.4-Using neural nets to recognize handwritten digits-A simple network to classify ...(翻译)
原文地址:http://neuralnetworksanddeeplearning.com/chap1.html#the_architecture_of_neural_networksA simple network to classify handwritten digits定义完了神经网络的相关概念后,我们回到手写识别的问题。我们可以将手写识别的问题分解成2个子问题。首先,我们将包含着多个数字的翻译 2016-02-18 16:03:33 · 758 阅读 · 0 评论 -
[数据挖掘]关联规则学习笔记
关联规则频繁项集的产生规则产生基于置信度的剪枝频繁项集的紧凑表示41 极大频繁项集42 闭频繁项集6 FP增长算法61 FP树表示法关联规则 参考资料:《数据挖掘导论》人民邮电出版社Pang-Ning Tan等著关联规则是形如X→YX \rightarrow Y 的蕴含表达式,其中X和Y是不相交的项集。即X∩Y=∅X \cap Y=\emptyset 。关联规则的强度可以用原创 2016-01-26 11:43:35 · 7368 阅读 · 0 评论 -
[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)
马氏距离欧式距离曼哈顿距离原创 2016-01-14 14:36:07 · 7953 阅读 · 1 评论 -
[机器学习]K近邻算法及其应用--WEKA工具
K邻近算法 weka原创 2015-12-16 14:27:40 · 14811 阅读 · 3 评论 -
[数学学习]数学知识回顾之概率统计与信息论
Logistic回归模型Logistic分布联合界与Hoeffding不等式联合界定理Hoeffding不等式极大似然估计信息论基本理论熵联合熵条件熵链式法则互信息Logistic回归模型Logistic分布Logistic分布的定义如下。 设XX是连续随机变量,XX服从Logistic分布是指XX具有下列分布函数和密度函数。 F(x)=P(X≤x)=11+e−(x−原创 2016-01-23 14:26:41 · 875 阅读 · 0 评论 -
[神经网络]1.3-Using neural nets to recognize handwritten digits-The architecture of neural networks(翻译)
翻译1.3翻译 2016-01-22 21:55:25 · 733 阅读 · 0 评论 -
[神经网络]1.2-Using neural nets to recognize handwritten digits-Sigmoid neurons(翻译)
[原文地址:http://neuralnetworksanddeeplearning.com/chap1.html#sigmoid_neurons]Sigmoid neurons学习算法听上去是极好的。但是,我们如何才能用神经网络设计出算法呢?假设我们有一个感知机网络,用来学习来解决一些问题。比如,这网络的输入可能是从扫描手写数字的图像得到的原始像素数据。我们希望网络学习到的权重和偏差可以正确识别数翻译 2016-01-21 23:00:14 · 1222 阅读 · 0 评论 -
[神经网络]1.1-Using neural nets to recognize handwritten digits-Perceptrons(翻译)
原文地址:http://neuralnetworksanddeeplearning.com/chap1.html人类的视觉系统是世界的奇迹之一。考虑下面的手写数字的序列: 大多数人可以毫不费力的认识出这串数字是504192。这种安逸是骗人的。在大脑的每一个半球中,人类有一个初级视觉皮层,也称为V1V_1,包含1.4亿个神经元,数百亿它们之间的连接。然而人的视觉不仅仅有V1V_1,还有一系列的视觉皮翻译 2016-01-21 00:03:06 · 1150 阅读 · 2 评论 -
[机器学习]机器学习之数学知识回顾-矩阵及优化理论
机器学习,数学知识回顾。原创 2015-12-11 21:32:31 · 8345 阅读 · 0 评论