
机器学习
阿卡蒂奥
这个作者很懒,什么都没留下…
展开
-
机器学习笔记——SVM(1)
1、较少数据条件下使用SVM给定空间内5个点,且[0,-1],[0,0]属于R类,[1,1.5],[0,2],[2,0]属于B类: 在空间内分布情况为: 简单计算即可找到两类的分界线:利用Pychon实现SVM——代码:from sklearn import svmx = [[0,-1],[0,0],[1,1.5],[0,2],[2,0]]y = [0,0,1,1,1]clf = svm.S原创 2017-09-03 14:11:49 · 948 阅读 · 0 评论 -
机器学习笔记--机器学习实战CART算法错误
使用<机器学习实战>第九章中介绍CART算法的代码,发现代码部分有问题: 问题处: 更改后:# !/usr/bin/env python# coding:utf-8from numpy import *# 加载数据def loadDataSet(fileName): dataMat = [] fr = open(fileName) for line in fr.rea原创 2017-12-14 16:59:17 · 1237 阅读 · 0 评论 -
机器学习笔记——kd树及python实现
kd树实现k近邻时当训练数据量较大时,采用线性扫描法(将数据集中的数据与查询点逐个计算距离比对)会导致计算量大效率低下.这时可以利用数据本身蕴含的结构信息,构造数据索引进行快速匹配.索引树便是其中常用的一种方法.kd树是其中一种索引树,是对k维空间中包含所有实例点进行划分以便进行快速匹配的一种数据结构.给定一个二维数据集:[(2, 3), (5, 4), (9, 6), (4, 7), (8, 1)原创 2017-12-06 16:01:24 · 4214 阅读 · 3 评论 -
机器学习笔记--classification_report&精确度/召回率/F1值
classification_report简介sklearn中的classification_report函数用于显示主要分类指标的文本报告.在报告中显示每个类的精确度,召回率,F1值等信息。 主要参数: y_true:1维数组,或标签指示器数组/稀疏矩阵,目标值。 y_pred:1维数组,或标签指示器数组/稀疏矩阵,分类器返回的估计值。 labels:array,shape = [n_la原创 2017-12-13 11:25:33 · 119739 阅读 · 14 评论 -
机器学习笔记——机器学习中的距离
闵可夫斯基距离(Minkowski distance) D=(∑ni=1∣∣xi−yi∣∣p)1p\ D=\left ( \sum_{i=1}^{n} \left | x_{i}-y_{i} \right |^{p}\right )^{\frac{1}{p}}P=1时,对应曼哈顿距离 P=2时,对应欧氏距离# 闵可夫斯基距离(Minkowski distance)import matplotli原创 2017-10-19 10:49:51 · 374 阅读 · 0 评论 -
机器学习笔记——KNN与Digit Recognizer问题
KNN算法KNN算法采用多数表决,即由输入实例的k个临近的训练实例的多数类决定输入实例的类. 因此k值的选择会对结果产生较大影响. k值较小:预测结果会对近邻的实例点非常敏感,整体模型变得复杂,容易过拟合. k值较大:可以减小估计误差,但此时距离较远的实例也可能起预测作用,整体模型变得简单(极端情况:k=实例总数).实验:iris数据集分3类,每类50组数据,共150组. 每组数据包含花原创 2017-12-04 20:13:08 · 783 阅读 · 0 评论 -
机器学习笔记--决策树&决策树可视化
决策树算法/Decision Tree决策树思想就是找到最纯净的数据划分方法,即要把目标变量分得足够开,使每个节点对应于同一个类别.决策树基本算法: 在递归过程中有3种情况会导致递归返回: 1.当前节点包含的样本完全属于同一类别; 2.当前属性集为空,或所有样本在所有属性上取值相同; 3.当前节点包含的样本集为空.其中,从数据集中选择最优划分属性的方法不同对应产生了不同的决策树算法: ID原创 2017-10-02 20:01:24 · 1526 阅读 · 0 评论 -
机器学习笔记——决策数实现及使用Graphviz查看
决策树实例判断是否会购买电脑的案例: 数据以data.csv文件存储,内容为。RID age income student credit_rating Class: buys_computer1 youth high no fair no2 youth high no excellent no3 middle_aged high no原创 2017-09-02 14:08:28 · 12113 阅读 · 10 评论 -
机器学习笔记--特征工程
特征提取后常常会有许多问题,如缺失值问题/不属于同一纲量问题/信息冗余问题/信息利用率低问题. 以下使用鸢尾花数据集进行处理. 导入鸢尾花数据:from sklearn.datasets import load_irisiris = load_iris()数据预处理无纲量化:将不同规格数据转换为同一规格.1.标准化基于特征矩阵的列,将特征值转换至服从标准正态分布. x′=x−X¯S\ x^{'原创 2017-11-21 12:24:39 · 2696 阅读 · 0 评论 -
机器学习笔记--朴素贝叶斯 &三种模型&sklearn应用
朴素贝叶斯 Naive Bayes贝叶斯定理根据条件概率公式: 在B条件下A发生的概率: P(A∣B)=P(AB)P(B)\ P(A\mid B) = \frac{P(AB)}{P(B)} 在A条件下B发生的概率: P(B∣A)=P(AB)P(A)\ P(B\mid A) = \frac{P(AB)}{P(A)} 则 P(A∣B)P(B)=P(AB)=P(B∣A)P(A)\ P(原创 2017-10-07 11:35:34 · 4244 阅读 · 0 评论 -
机器学习笔记——K-Means
K-Means给定4个实例,每个object对应有2个features,将其分为2类: 随机选取k(此时k=2)个点作为初始的中心点。假设选A(1,1)、B(2,1)为中心点,则可得距离矩阵D0为: ——矩阵中的值d11、d12、d13、d14依次对应A与A、B、C、D的距离,d21、d22、d23、d24依次对应B与A、B、C、D的距离; 然后分别判断A、B、C、D距离A、B距离原创 2017-09-16 20:06:39 · 373 阅读 · 0 评论 -
机器学习笔记——Neural Network
神经网路算法Neural Network神经网络包含输入层input layer、隐藏层hidden layer、输出层output layer三部分。多层神经网络中常用的优化参数算法,backpropagation/反向传播算法。多层神经网络结构如图: 其中隐藏层通常有多层组成;神经网络中每个节点i的输入为:在节点处进行非线性化处理:f为激活函数,常用的形式有:tanh(x) 和 Sigmoid原创 2017-09-20 14:25:38 · 7359 阅读 · 2 评论 -
机器学习笔记——相对熵 交叉熵
相对熵relative entropy又称为KL散度(Kullback-Leibler divergence) 交互熵 互熵 设 p(x).q(x)\ p(x) . q(x) 是X中取值的两个概率分布,则 p\ p对 q\ q的相对熵是: D(p,q)=∑xϵXp(x)logp(x)q(x)=Ep(x)logp(x)q(x)\ D(p,q)=\sum_{x\epsilon X}^{ }p(x)lo原创 2017-10-17 16:58:12 · 899 阅读 · 0 评论 -
机器学习笔记——Logistic Regression
1、线性回归给定数据: t为车辆行驶的时间,与之相关的两个因素:x1为车辆一个运输任务行驶的里数,x2为车辆运输的次数; (data数据保存在.csv文件中)#!/usr/bin/python# -*- coding: utf-8 -*-# #线性回归模型from numpy import genfromtxtfrom sklearn import datasets, linear_mod原创 2017-09-15 12:27:12 · 623 阅读 · 0 评论 -
机器学习笔记——Nearest Neighbors
1、利用自带鸢尾花数据简单实现最邻近算法from sklearn import neighborsfrom sklearn import datasets# ##执行k最近邻的分类器knn = neighbors.KNeighborsClassifier()# ##加载鸢尾花数据集iris = datasets.load_iris()# print iris# ##使用X作为训练数据拟合模原创 2017-09-14 15:20:35 · 2153 阅读 · 0 评论 -
机器学习笔记——SVM(2)
SVM+PCA 人脸识别 #!/usr/bin/python# -*- coding: utf-8 -*-from __future__ import print_functionimport matplotlib.pyplot as pltimport logginglogging.basicConfig()from sklearn.model_selection import tra原创 2017-09-11 16:10:29 · 734 阅读 · 0 评论 -
机器学习笔记--K近邻
一 约会网站配对效果实例K近邻算法: 1 计算已知类别数据集中的点与当前点之间的距离; 2 按照距离递增次序排序; 3 选取与当前点距离最小的k个点; 4 确定前k个点所在类别的出现频率; 5 返回前k个点出现频率最高的类别作为当前点的预测分类。#!/usr/bin/python# coding:utf-8# 机器学习实战 第02章 KNN# 约会网站配对效果实例# 读取数据并处理原创 2017-10-02 15:57:11 · 319 阅读 · 0 评论