
机器学习
文章平均质量分 53
Aquarius-Baby
一边改BUG,一边写BUG。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实战_07AdaBoost元算法提高分类性能
元算法是对其他算法进行组合的一种方式。 主要关注boosting方法及其代表分类器Adaboost。1. boosting bagging(自举汇聚法),是从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择同一样本 。这一性质就允许新数据集中可以有重复的值,而原始数据原创 2017-08-09 14:27:27 · 317 阅读 · 0 评论 -
机器学习-Tensorflow_CNN_mnit
问题使用MNIST数据集进行训练,识别图片中的手写数字(0到9共10类)。 思路使用一个简单的CNN网络结构如下,括号里边表示tensor经过本层后的输出shape:输入层(28 * 28 * 1) 卷积层1(28 * 28 * 32) pooling层1(14 * 14 * 32) 卷积层2(14 * 14 * 64) pooling层2(7 * 7 * 64) 全连接层(1 * 102转载 2017-09-24 16:31:43 · 393 阅读 · 0 评论 -
机器学习--目录链接
1. https://www.baidu.com/原创 2017-08-14 13:13:50 · 241 阅读 · 0 评论 -
机器学习实战_06支持向量机
1.SVM简介1.1 什么是支持向量机支持向量机(Support vector machine)通常用在机器学习 (Machine learning)。是一种监督式学习 (Supervised Learning)的方法,主要用在统计分类 (Classification)问题和回归分析 (Regression)问题上。支持向量机属于一般化线性分类器,也可以被认为是提克洛夫规范化(Tikhonov Re转载 2017-08-08 21:10:41 · 296 阅读 · 0 评论 -
机器学习实战--第三版代码修改
第九章 1. 2.原创 2017-08-11 15:15:33 · 359 阅读 · 0 评论 -
机器学习实战_04-贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据贝叶斯决策理论: 创建样本集合 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', '原创 2017-07-18 20:40:47 · 503 阅读 · 0 评论 -
机器学习实战_09树回归
当数据拥有众多特征且特征之间关系十分复杂时,构建全局模型的想法就显得太难了。(所以,第八章的线性回归不适合) 一种可行的方法是将数据集切分成很多份易建模的数据, 然后利用第8章的线性回归技术来建模。 如果首次切分后仍然难以拟合线性模型就继续切分。在这种切分方式下,树结构和回归法就相当有用。本章将构建两种树 第一种是回归树,其每个叶节点包含单个值 第二种是模型树,其每个叶节点包含一个线性方程原创 2017-08-11 15:54:14 · 389 阅读 · 1 评论 -
机器学习路线
第一条线路: (基于普通最小二乘法的)简单线性回归 -> 线性回归中的新进展(岭回归和LASSO回归)->(此处可以插入Bagging和AdaBoost的内容)-> Logistic回归 ->支持向量机(SVM)->感知机学习 -> 神经网络(初学者可先主要关注BP算法)-> 深度学习 之所以把它们归为一条线路,因为所有这些算法都是围绕着 y = Σxiβi,这样一条简单的公式展开的,转载 2017-08-11 10:55:08 · 670 阅读 · 0 评论 -
机器学习实战_05Logistic回归
主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。逻辑回归逻辑回归可以用来进行回归与分类,两者仅有略微不同,主体算法是一样的,本文以分类进行讲解。如下图二分类问题,我们希望找到一个直线(高维空间为超平面)来将数据划分开。 这样的线性边界可以表示为: 上式右边x为向量。 我们取预测函数为Sigmoid函数, Sigmoid函数有一个很棒的特点是它的导数 即:则预测函数可原创 2017-08-08 19:48:35 · 270 阅读 · 0 评论 -
机器学习实战_08预测数值型数据-回归
回归的目的是预测数值型的目标值。 最直接的办法是依据输入写出一个目标值的计算公式。 1. 标准回归# 读取文件 def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t'))-1 dataMat =[] labelMat=[] fr = open(filename)原创 2017-08-10 17:56:28 · 353 阅读 · 0 评论 -
机器学习实战_03-决策树
决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。创建分支的伪代码函数createBranch()如下检测数据集中的每个子项是否属于同一分类: If so return 类标签; else 寻找划分数据集的最好特征 划分数据集 ‘原创 2017-07-17 21:50:49 · 289 阅读 · 0 评论 -
机器学习实战_02-k临近
2.1 K-近邻算法 优 点 :精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 代码 # -*- coding: UTF-8 -*- from numpy import * import operator import matplotlib import matplotlib.pyplot as转载 2017-06-15 16:37:26 · 334 阅读 · 0 评论 -
机器学习实战_12FP-growth算法发现高频项集
FP-growth算法 优点:一般要快于Apriori。 缺点:实现比较困难,在某些数据集上性能会下降。 适用数据类型:离散型数据。 1.名词解释 2.FP-growth算法解释 3.FP-Tree(频繁模式树)的涵义及构造 4.根据FP-Tree树查找频繁项集转载 2017-07-17 14:31:47 · 913 阅读 · 0 评论 -
RF、GBDT、XGBoost
1. Bagging Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归),同时Bagging的基学习器之间属于并列生成,不存在强依赖关系。2. 随机森林RF(Random Forest)RF包括四个部分:1、随机选择样本(放回抽样);2、随机选择特征;3、构建决策树;4、随机森林投票(平均)。 在构建决策树的时候,RF的每棵决策树都最大可能的进行生长而不进行剪枝;在对预测转载 2017-10-10 16:34:55 · 448 阅读 · 0 评论