
机器学习
# 机器学习学习
猿来这样1
编程圈子,谢厂节的博客
展开
-
机器学习——学习路线图
一、预备知识微积分(偏导数、梯度等等)概率论与数理统计(例如极大似然估计、中央极限定理、大数法则等等)最优化方法(比如梯度下降、牛顿-拉普什方法、变分法(欧拉-拉格朗日方程)、凸优化等等)二、路线1(基于普通最小二乘法的)简单线性回归 -> 线性回归中的新进展(岭回归和LASSO回归)->(此处可以插入Bagging和AdaBoost的内容)-> Logistic回归 ->支持向量机(SVM原创 2017-05-24 08:37:16 · 10491 阅读 · 4 评论 -
优快云机器学习笔记一 概述、线性回归
一、定义在统计学中,线性回归(Linear Regression)是利用称为“线性回归方程”的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归大于一个自变量情况的叫做多元回归。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行统计分析。线性回归利用数理统计中回归原创 2017-05-26 14:52:27 · 1256 阅读 · 0 评论 -
优快云机器学习笔记二 线性回归实例
一、课程知识点本次课程 1.系列课程环境配置 2.机器学习概述 3.线性回归算法原理推导 4.逻辑回归算法原理 5.最优化问题求解 6.案例实战梯度下降推荐学习教材:《机器学习实战》 准备环境: 安装Anaconda3(64-bit) https://www.continuum.io/downloads1.conda list #查看插件2.Jupter Note原创 2017-06-06 21:28:41 · 1018 阅读 · 0 评论 -
优快云机器学习笔记三 决策树、随机森林
一、决策树1.示例要决策一个人喜不喜欢电子游戏。 数据丢进去,数据通过节点一步步走,最终会到一个叶子节点,没有一个数据是在中间的。1.训练阶段 从给定的训练数据集DB,构造出一棵决策树 class=DecisionTree(DB)2.分类阶段 从根开始,按照决策树的分类属性逐层往下划分,直到叶节点,获得概念(决策、分类)结果。 y=DecisionTree(x) 另一个例子: 明天有一原创 2017-06-08 21:14:11 · 2717 阅读 · 2 评论 -
优快云机器学习笔记四 逻辑回归
一、Logistic回归线性回归预测的是线性值。逻辑回归是一个分类任务。结果是明确的值,如:0或者1。 逻辑回归与多重线性回归最大的区别就在于它们的因变量不同,其它的基本都差不多。这两种回归都可以归于同一个家族,即广义线性模型(generalizedlinear model)。如果是连续的,就是多重线性回归如果是二项分布,就是逻辑回归如果是Poisson分布,就是Poisson回归如果是负原创 2017-06-08 21:27:12 · 624 阅读 · 0 评论 -
优快云机器学习笔记五 Numpy简单操作
一、Numpy的一些操作Numpy是Python的科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。导入numpyimport numpy as npprint (np.version.version)多维数组 numpy.ndarray以list或tuple变量为参数产生一维数组print (np.array([1,2,3,4]))print (np.arra原创 2017-06-13 22:19:53 · 814 阅读 · 0 评论 -
优快云机器学习笔记六 Pandas简单操作
pandas一、简介是基于Numpy的一种工具,为了解决数据分析任务而创建的,引入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 官网 《10分钟入门》二、基本操作1.导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as plt2原创 2017-06-13 22:35:56 · 623 阅读 · 0 评论 -
优快云机器学习笔记七 实战样本不均衡数据解决方法
信用卡检测案例原始数据:0特别多,1特别少——样本不均衡。 要么让0和1一样多,要么让0和1一样少。 1.下采样对于数据0和1,要变为同样少——在0里选择和1一样多数据。from sklearn.preprocessing import StandardScalerdata['normAmount']=StandardScaler().fit_transform(data['Amount'].原创 2017-06-15 20:31:28 · 5052 阅读 · 1 评论 -
优快云机器学习笔记八 梯度下降
一、梯度下降梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 可以用于求解非线性方程组。 例子: 求函数f(x)=x2的最小值。 利用梯度下降的方法解题步骤如下: 1、求梯度, 2、向梯度相反的方向移动x,如下 ,其中,γ 为步长。如原创 2017-06-15 22:40:05 · 526 阅读 · 0 评论 -
优快云机器学习笔记九 支持向量机
一、概念支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVN,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。1. 线性分类线性分原创 2017-06-20 21:35:02 · 771 阅读 · 0 评论 -
优快云机器学习笔记十 Xgboost
xgboost过拟合问题比较大。 E(x,y)E_{(x,y)} 期望值 惩罚项: pip install xgboost有问题的话: 到http://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost下载参数:xgb1=XGBClassifier(learning_rate=0.1,n_estimators=1000,max_depth=5,m原创 2017-06-22 20:45:43 · 498 阅读 · 0 评论 -
优快云机器学习笔记十一 k-近邻算法
本文内容来自《机器学习实战》中国工信出版集团 人民邮电出版社一、简介简单地说,k-近邻算法采用测量不同特征值之间的距离方法进来分类 特点:优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k-近邻算法称为kNN,它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的原创 2017-06-23 09:08:52 · 4244 阅读 · 0 评论 -
优快云机器学习笔记十二 k-近邻算法实现手写识别系统
本文主要内容来自《机器学习实战》示例:手写识别系统为了简单起见,这里构造的系统只能识别数字0到9。需要识别的数字要使用图形处理软件,处理成具有相同的色彩和大小:32*32 黑白图像。为了方便理解,这里将图像转换成文本格式。1. 流程收集数据:提供文本文件准备数据:编写函数img2vector(),将图像格式转换为分类器使用的向量格式分析数据:在Python命令提示符中检查数据,确保它符合要求原创 2017-06-26 12:46:18 · 1102 阅读 · 0 评论 -
机器学习笔记十三 朴素贝叶斯
贝叶斯分类是一类分类算法的总称,这类算法以贝叶斯定理为基础。贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。原创 2017-06-26 13:56:58 · 541 阅读 · 0 评论 -
机器学习笔记十四 朴素贝叶斯实例
机器学习 一个重要应用就是文档的自动分类。可以观察文档出现的词,并把每个词 出现或者不出现作为一个特征,这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是贝叶斯分类器的一个扩展,是用于文档分类的常用算法。原创 2017-06-26 13:57:44 · 1372 阅读 · 0 评论 -
机器学习笔记十五 AdaBoost(未完)
暂无原创 2017-06-26 13:59:02 · 397 阅读 · 0 评论 -
机器学习笔记十六 K-均值聚类算法
暂无原创 2017-06-26 13:59:40 · 548 阅读 · 0 评论 -
机器学习笔记十七 Apriori
暂无原创 2017-06-26 14:00:10 · 368 阅读 · 0 评论 -
机器学习笔记十八 FP-growth
暂无原创 2017-06-26 14:00:52 · 467 阅读 · 0 评论 -
机器学习笔记十九 使用PCA简化数据(未完)
PCA (Principal Component Analysis ),即主成分分析,是采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。这个算法有一个经典应用:人脸识别。原创 2017-06-26 14:01:34 · 586 阅读 · 0 评论 -
机器学习笔记二十 利用SVD简化数据
暂无原创 2017-06-26 14:02:02 · 464 阅读 · 0 评论 -
机器学习笔记二十一 神经网络(NN)
一、神经网络基本原理人脑由上千亿条神经组成,每条神经平均又会连接到几千条其他的神经,通过这种连接方式,神经可以收发不同数据的能量。神经一个非常重要的功能就是,它们对能量的接收并不是立即作出响应,而是将它们累加,当这个累加的总和达到某个临界阈值时,它们才将自己的那部分能量发送给其他的神经,大脑通过调节这些连接的数目和强度来进行学习。1. Rosenblatt 感知器1957年美国计算机科学家罗森布拉特原创 2017-07-04 21:34:53 · 1313 阅读 · 0 评论 -
机器学习笔记二十二 卷积神经网络
一、 概念卷积神经网络是一种前馈神经网络,人工神经元可以响应周围单元,可以进行图像处理。 卷积神经网络(Convolutional Neural Network,CNN)包括卷积层(alternating convolutional ayer)和池层(pooling layer)。一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦原创 2017-07-06 19:59:38 · 764 阅读 · 0 评论 -
机器学习笔记二十三 TensorFlow
一、简介2015 年 11 月,谷歌发布TensorFlow,已经在图像识别、语音识别、自然语言处理、数据挖掘和预测等 AI 场景中得到了十分广泛的应用。Tensorflow的特性高度的灵活性:Tensorflow并不是一个严格的神经网络库,只要计算可以表示为一个数据流图,就可以使用Tensorflow。可移植性(Portability)多语言支持性能最优化二、安装pip install原创 2017-07-06 20:53:36 · 636 阅读 · 0 评论 -
机器学习笔记二十四 中文分词资料整理
一、常见的中文分词方案1. 基于字符串匹配(词典)基于规则的常见的就是最大正/反向匹配,以及双向匹配。 规则里糅合一定的统计规则,会采用动态规划计算最大的概率路径的分词. 以上说起来很简单,其中还有很多细节,比如词法规则的高效匹配编译,词库的索引结构等。 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。2. 基于统计以及机器学习的分词以CRF为主,也有用原创 2017-07-14 14:11:54 · 4195 阅读 · 0 评论 -
机器学习笔记二十五 中文分词结巴试用
本文学习资源来自《机器学习实践指南》下载网址: https://pypi.python.org/pypi/jieba 下载后的代码里有大量测试代码,进入test即可运行测试代码:测试代码#-*- coding: utf-8 -*-import syssys.path.append("../")import jiebaseg_list = jieba.cut("我第一次来到中国",cut_原创 2017-11-14 08:54:46 · 523 阅读 · 0 评论 -
机器学习笔记二十六 余弦相似度进行文本分类
算法过程: 1. 读取样本文本 2. 对文本进行utf-8编码转换 3. 对文本进行预处理,完成中文分词,形成词条库,并去除停用词 4. 读取文本词条库,统计每个词条的词频,词频代表了每个词对一段文本的重要程度,字词的重要性随着它在文件中出现的次数成正比增加。 5. 对上一步整理形成的每个词的词频组成文本的词条词频特征码。 6. 使用1-5的方法分析待分类文本,生成待分类文本原创 2017-11-20 13:33:33 · 2493 阅读 · 2 评论 -
让机器读懂人类:探索问答系统和机器阅读理解
学习内容来自 : 优快云在线直播教程 林德康一、问答系统概念问答系统在搜索引擎中的应用略…基于知识图谱的问答系统high precisiongreat for head queriesmust anticipate all questionsrestricted to short answerscostly to make data fresh and comp...原创 2018-07-11 21:06:38 · 4070 阅读 · 0 评论