- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 机器学习实战-logistics回归
一.引言假设我们现有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作回归。利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。 sigmoid=1/(1+exp(-inX)),该函数的曲线类似于一个s型,在x=0处,函数值为0.5. 于是,为了实现logistic分类器,我们可以在每个特征上都乘以一个回归系数,...
2019-03-26 14:56:20
440
原创 机器学习实战---朴素贝叶斯
算法原理朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:朴素贝叶斯分类器的表示形式:当特征为为x时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即朴素贝叶斯的朴素体现在其对各个条件的独立性假设上,加上独立假设...
2019-03-21 11:17:39
307
原创 机器学习实战----Kmeans(地图点聚类的没做)
今天是周天呢~还是逼着自己出来写完...原理聚类是一种无监督的学习,它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象,簇内的对象越相似,聚类的效果就越好。K-means算法中的k表示的是聚类为k个簇,means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个的类的质心对该簇进行描述。 聚类和分类最大的不同在于,分类的目标是事先已知的,而聚类则不一样,聚...
2019-03-13 10:05:17
1180
3
原创 python小知识点
1.python的列表生成机器学习实战中决策树中用到,将一列的数据放到一个列表中。list_0 = [x*x for x in range(5)]print(list_0)#输出:#[0, 1, 4, 9, 16]2.python中的cout()函数Python count() 方法用于统计字符串里某个字符出现的次数。str.count(sub, start= 0,...
2019-03-12 16:54:42
269
原创 机器学习实战2---决策树算法
1.总体概述创建分支的伪代码函数createBranch()如下所示:检测数据集中的每个子项是否属于同一个分类: If so return 类标签 Else 寻找划分数据集的最好特征 划分数据集 创建分支节点...
2019-03-12 15:23:53
224
原创 机器学习笔记1---knn实践篇 数字识别
文本为测试集和训练集两个文件夹,里面文件命名为0_0.txt(为数字0的第0个实例)。里面为32*32的数字1.将文本转为向量def img2vector(filename): returnvect = zeros((1,1024)) with open(filename,"r") as f: lines = f.readlines() f...
2019-03-06 10:44:34
275
原创 机器学习笔记1-----实践篇knn2约会匹配
1.数据类型本实验数据特征有3个 标签为数值型数据2.从文本文件中解析数据def file2matrix(filename): with open(filename,"r") as f: lines = f.readlines() linesSize = len(lines) returnMat = zeros((line...
2019-03-05 17:39:15
304
原创 机器学习算法笔记1--实践篇knn
实现机器学习实战中的简单分类算法1------knn1相关知识点笔记见:https://mp.youkuaiyun.com/postedit/88121317思想knn利用欧氏距离,求离测试点最近的k个训练集的点,根据k个点的类投票决定测试点的类。代码流程1.求训练集长度2.titl生成下列类型的数组【【】 此列为inx【】......长度为datasize】...
2019-03-04 17:36:34
206
翻译 numpy学习笔记
1.shape>>> w=np.zeros((5,6))>>> warray([[ 0., 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 0.], [ 0., 0., 0., 0.,...
2019-03-04 17:23:42
203
原创 机器算法学习笔记1----原理篇k近邻法(knn)
算法思想给定一个训练数据集,对于新的输入实例,在数据集中找到与该实例最邻近的k个实例,这k个实例多数属于哪一类,就把该输入实例分为这个类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。模型三要素:k值选择,距离度量,分类决策规则k值选择:应用中k值一般取一个比较小的数值,通常采用交叉验证选取最优的k值。距离度量:lp距离,欧氏距离(p=...
2019-03-04 15:27:13
160
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人