机器学习
Vivinia_Vivinia
微信号:healer_healer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习-K近邻算法
工作原理:存在一个训练样本数据集合,每组数据对应一个标签及分类(比如下边例子为前两个数据都为A类),输入测试样本后通过计算求出测试样本与训练样本的欧氏距离d,取前k个最小的值,这k组数据对应的标签分类最多的那种,就是测试样本的标签。 训练样本数据: [[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]] 欧氏距离公式: from numpy ...原创 2019-07-14 18:02:31 · 189 阅读 · 0 评论 -
机器学习-朴素贝叶斯(侮辱类词汇检测)
根据公式: 可以得出: 这里进行计算时,只需要计算分子,比较大小,因为分母只是对数值有影响,对两个数的比较不会产生影响 import numpy as np """创建数据集""" def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ...原创 2019-07-17 15:00:02 · 1197 阅读 · 0 评论 -
机器学习-Logistic回归(改进)
首先,alpha的确定如果太小,一步一步走的太慢: 如果取得太大,容易跨过最小(最大)值,造成震荡: 所以最合适的是取一个变化的量,逐步逼近: 另外,当数据过大时,使用全批量会计算所有数据,复杂度太高,其实这种算法大约计算一百个左右就可确定,所以改进全批量为随机: import numpy as np import matplotlib.pyplot as plt impo...原创 2019-07-19 11:10:10 · 1702 阅读 · 0 评论 -
机器学习-决策树(绘制树形图)
我尽力了。。。具体绘制树的代码大体懂个意思,书上没讲视频没说,比较难理解。 from math import log import operator import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties """求树的叶子节点数""" def getNumLeafs(myTree):...原创 2019-07-16 17:34:37 · 2948 阅读 · 0 评论 -
机器学习-Logistic回归与线性回归的理解
今下午开始脑子一直懵,对于刚入机器几天的小渣渣来说,内容越来越难了,学的有些吃力,并且概率论类的东西由于某些原因没能好好学,导致现在看的很费劲。 折腾了一下午一半天,好好梳理了线性回归和Logistic回归,按自己的理解整理一下。 首先,回归就是使用一条直线,对已知点进行拟合(该线成为最佳拟合直线),得到这条直线,通常都是使用梯度上升或者梯度下降的方法求出参数(这里只是差距一个负号,本质...原创 2019-07-18 22:26:10 · 1199 阅读 · 0 评论 -
机器学习-决策树(求字典树)
感觉不太好理解,所以把决策树的创建分了三个部分,这是第二个部分,后一篇会写具体绘制树形图 from math import log import operator """计算香农熵""" def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for featVec in data...原创 2019-07-16 14:53:06 · 488 阅读 · 0 评论 -
机器学习-决策树(求最优信息增益)
emmmmmm....有点烧脑子 决策树,通俗的理解就是根据每个问题进行判断,然后最终往下找到答案的过程,类似于一棵树,可以用下图(相亲对象的选择)来理解: 获得一棵决策树,首先要求的最优信息增益,信息增益就是求前边每一列对最最后一列这个可能标签的约束程度,熵代表了最后一列标签取值的随机性(貌似这样吧,我是小渣渣自己这样理解的,头都大了),下图可以看出每种信息增益的情况,可以理解为用...原创 2019-07-16 11:33:41 · 858 阅读 · 0 评论 -
机器学习-Logistic回归(最佳回归系数的确定)
后悔没学好概率论了,那公式看的好吃力啊,怎么办,我好慌。。。 数据包 Sigmoid函数: 全批量梯度上升法: import numpy as np import matplotlib.pyplot as plt """装载函数""" def loadDataSet(): dataMat = [] labelMat = [] fr = open('tes...原创 2019-07-18 11:55:08 · 1440 阅读 · 0 评论 -
机器学习-手写数字识别系统
需要两个数据包,里边有许多数字图像,像这样: 数据包 import numpy as np import operator from os import listdir """分类函数""" def classfy0(inX, dataSet, labels, k): # 参数分别为测试样本,训练样本,训练样本标签,近邻个数 dataSetSize = dataSet.sha...原创 2019-07-15 19:19:38 · 1443 阅读 · 0 评论 -
机器学习-海伦约会(计算错误率)
数据包在上一篇,这里不贴了。 from numpy import * # 导入科学计算包 import operator # 导入运算符模块 """打开文件""" def file2matrix(filename): fr = open(filename) # 打开文件 arrarOLines = fr.readlines() # 读取内容 numberOfL...原创 2019-07-15 15:38:49 · 380 阅读 · 0 评论 -
机器学习-海伦约会(图表显示)
需要一个文件包,是海伦调查的1000分数据,共四列,前三列为数据,最后一列为分类是否有魅力。 数据包 from numpy import * # 导入科学计算包 from matplotlib.font_manager import FontProperties import matplotlib.lines as mlines import matplotlib.pyplot as pl...原创 2019-07-15 14:39:12 · 809 阅读 · 0 评论 -
机器学习-朴素贝叶斯(邮件分类)
原理和前一个的侮辱词汇分类差不多,都是通过测试求出概率,概率大的为分类。(我概率论真的不好,好难理解。。。) 数据包 import numpy as np import random import re """创建词汇表""" def createVocabList(dataSet): vocabSet = set([]) for document in dataSet: ...原创 2019-07-17 17:27:58 · 756 阅读 · 0 评论
分享