
机器学习算法
Frank__Zhang
专注云计算,大数据方向。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
KNN(K-近邻算法)
简介:计算测试点和样本点之间距离进行分类,选用欧式距离计算距离适用范围:数值型和标称型步骤:1.计算测试点到所有样本点的距离;2.对所有距离排序,取前k个最小距离;3.计算这k个距离对应分类各有多少,选择最多的那个类作为测试点的类别;缺点:1.必须保存所有数据集,必须把每个测试点和所有样本点计算距离,当样本点很大时,很耗存储空间和计算资源原创 2015-11-12 15:38:50 · 406 阅读 · 0 评论 -
朴素贝叶斯
简介:假设特征之间相互独立;计算测试数据点属于每个类别的概率,选择高概率对应的类别;朴素贝叶斯分类器有两种实现方式:伯努利模型实现和多项式模型实现,这里选用第一种,不考虑词在文档中出现的次数,只考虑出不出现,即假设词是等权重的;适用范围:标称型数据(二/多分类)步骤:1.从测试文本中构建测试向量,将测试向量中的每个元素和垃圾词汇比较,得到0-1向量;原创 2015-11-12 15:41:12 · 405 阅读 · 0 评论 -
logistic回归
简介:logistic回归的目的:寻找一个非线性函数Sigmoid的最佳拟合参数,求解参数的过程可由最优化算法完成;常用最优化算法:梯度下降法、牛顿法适用范围:二分类问题(伯努利分布)步骤:缺点:优点:原创 2015-11-12 15:42:33 · 464 阅读 · 0 评论 -
最短路径算法:Dijkstra算法
最常用的路径算法有:Dijkstra算法、A*算法、Bellman-Ford算法、Floyd-Warshall算法(参考)、Johnson算法。本文主要研究Dijkstra算法的单源算法。1.1 Dijkstra算法 Dijkstra算法是典型最短路算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法能得出最原创 2015-11-12 15:44:29 · 1355 阅读 · 0 评论 -
决策树ID3
简介:通过样本数据集画出决策树,将测试数据从上到下依次做判断即可得到结果适用范围:标称型数据(是/否),没法处理数值型步骤:1.计算样本数据集的香农熵;2.按给定特征划分样本数据集;3.选择最好的数据集划分方式;4.递归构建决策树(没有库,自己定义画图函数)缺点:1.无法给出数据的内在含义;2.容易出现过度匹配,可以裁剪决原创 2015-11-12 15:40:09 · 473 阅读 · 0 评论 -
支持向量机SVM
简介:SVM有很多实现,只关注最流行的SMO(序列最小化)算法;使用核函数将SVM扩展到更高维的数据集上;适用范围:数值型和标称型数据原理:1.超平面和样本间隔越远越好,问题转化为求支持向量到超平面的最大间隔;2.找到具有最小间隔的点(支持向量),对间隔最大化;3.利用拉格朗日算子,将优化函数转化为拉格朗日算子优化问题4.选择核函数,核函原创 2015-11-12 15:43:36 · 432 阅读 · 0 评论