
ML
V_lq6h
这个作者很懒,什么都没留下…
展开
-
ML--决策树与随机森林
ML–决策树与随机森林在生活中,我们经常遇到一些事情需要作出决策来应对。说到决策,自然想到决策树算法,而说到决策树算法,又自然会想到随机森林主要涉及的知识点有:决策树的基本原理和构造决策树的优势和不足随机森林的基本原理和构造随机森林的优势和不足实例演示:相亲事件一.决策树决策树是一种在分类与回归中都有非常广泛应用的算法,它的原理是通过对一系列问题进行if/else的推导,最终...原创 2019-02-21 20:32:39 · 1686 阅读 · 1 评论 -
Python之ML--数据预处理
Python之ML–数据预处理机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量.因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的主要知识点如下:数据集中缺少数据的删除和填充数据格式化模型格式化模型构建中的特征选择一.缺少数据的处理from IPython.display import Image我们见到的缺失值是...原创 2019-03-15 23:38:34 · 1624 阅读 · 0 评论 -
Python之ML--模型评估与参数调优
Python之ML–模型评估与参数调优主要知识点如下:模型性能的无偏估计处理机器学习算法常见问题机器学习模型调优使用不同的性能指标评估预测模型一.基于流水线的工作流本节使用scikit-learn中的Pipline类.它使得我们可以拟合出包含任意多个处理步骤的模型,并将模型用于新数据的预1.威斯康星乳腺癌数据集威斯康星乳腺癌(Breast Cancer Wisconsin...原创 2019-03-16 18:40:53 · 1085 阅读 · 0 评论 -
Python之ML--情感分析
Python之ML–情感分析深入研究自然语言处理(natual language processing,NLP)领域的一个分支–情感分析(sentiment analysis)主要知识点如下:清洗和准备数据基于文本文档构建特征向量训练机器学习模型用于区分电影的正面与负面评论使用out-of-core学习处理大规模文本数据集一.获取IMDb电影评论数据集情感分析,有时也称为观点...原创 2019-03-17 12:14:06 · 1042 阅读 · 0 评论 -
Python之ML--回归分析预测连续型目标变量
Python之ML–回归分析预测连续型目标变量监督学习的另一个分支:回归分析(regression analysis).回归模型(regression model)可用于连续型目标变量的预测分析主要知识点如下:数据集的探索与可视化实现线性回归模型的不同方法训练可处理异常值的回归模型回归模型的评估及常见问题基于非线性数据拟合回归模型一.简单线性回归模型简单(单变量)线性回归的...原创 2019-03-17 17:23:25 · 3393 阅读 · 0 评论 -
Python之ML--聚类分析
Python之ML–聚类分析使用监督学习来构建学习模型,其中训练数据都是事先已知预测结果的,即训练数据中已提供了数据的类标;在本节,我们将转而研究聚类分析,它是一个无监督学习(unsupervised learning),可以在事先不知道正确结果(即无类标信息或预期输出值)的情况下,发现数据本身所蕴含的结构等信息;聚类的目标是发现数据中自然形成的分组,使得每个簇内样本的相似性大于与其他簇内样本的...原创 2019-03-18 19:26:31 · 2031 阅读 · 0 评论 -
ML--XOR问题
ML–XOR问题感知器对线性可分或近似线性可分数据有很好的效果,但对于线性不可分数据的效果不理想.Minsky在1969年出版的<>中用详细的数学证明了感知器无法解决XOR(异或)分类问题.而我们要说的XOR问题正是线性不可分的一.基本的逻辑运算1.AND运算x1x2AND0000101001112.OR运算...原创 2019-03-31 14:32:50 · 2655 阅读 · 1 评论 -
第一节--统计学习概论
第一节–统计学习概论首先介绍统计学习的定义,研究对象和方法;然后叙述监督学习;接着统计学习方法的三要素:模型,策略和算法;介绍模型选择,包括正则化,交叉验证和学习的泛化能力;介绍生成模型与判别模型;最后介绍监督学习方法的应用:分类,标注和回归一.统计学习1.统计学习的特点统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分...原创 2019-04-15 21:16:43 · 500 阅读 · 0 评论 -
第四节–朴素贝叶斯(Naive Bayes)法
第四节–朴素贝叶斯(Naive Bayes)法朴素贝叶斯(Naive Bayes,NB)法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.NB包括以下算法:高斯朴素贝叶斯(Gaussian Naive Bayes)–适用于正态分布伯努利朴素贝叶...原创 2019-04-21 14:57:30 · 415 阅读 · 0 评论 -
第二节--感知机
第二节–感知机感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值.感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型.感知机学习算法具有简单而易于实现的优点,分为原始...原创 2019-04-19 09:25:48 · 643 阅读 · 0 评论 -
第五节--决策树
第五节–决策树决策树(decision tree)是一种基本的分类与回归方法.决策树呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性,分类速度快.决策树学习通常包括3个步骤:特征选择,决策树的生成和决策树的修剪一.决策树模型与学习1.决策树模型分类决策树是一种描述...原创 2019-04-24 15:14:34 · 956 阅读 · 0 评论 -
第三节--k近邻算法
第三节–k近邻算法k近邻法(k-nearest neighbor,KNN)是一种基本分类与回归方法.k近邻法的输入为实例的特征变量,对应于特征空间的点,输出为实例的类别,可以取多类.k近邻法假设给定一个训练数据集,其中的实例类别已定,分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻法不具有显式的学习过程,k近邻法实际上利用训练数据集对特征向量空间进行...原创 2019-04-19 23:32:30 · 668 阅读 · 0 评论 -
第六节--逻辑斯谛回归与最大熵模型
第六节–逻辑斯谛回归与最大熵模型逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法.最大熵是概率模型学习的一个准则.将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑斯谛回归模型与最大熵模型都属于对数线性模型一.逻辑斯谛回归模型1.逻辑斯谛分布首先介绍逻辑斯谛分布(logistic distribution)逻辑斯谛分布:设...原创 2019-04-24 20:23:00 · 419 阅读 · 0 评论 -
ML--k近邻算法
ML–k近邻算法本节内容:k近邻分类算法从文本文件中解析和导入数据使用Matplotlib创建扩散图归一化数值一.K近邻算法概述简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类k近邻算法优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型使用k近邻算法分类爱情片和动作片,根据电影的打斗镜头和接吻镜头...原创 2019-05-08 22:03:34 · 417 阅读 · 0 评论 -
Python之ML--人工神经网络识别图像
Python之ML–人工神经网络识别图像深度学习可以被看作是一组算法的集合,这些算法能够高效地进行多层人工神经网络训练主要知识点如下:理解多层神经网络训练用于图像分类的神经网络实现强大的反向传播算法调试已实现的神经网络一.人工神经网络对复杂函数建模1.单层神经网络在深入讨论多层神经网络结构之前,我们来简要回顾一个单层神经网络的相关概念,如下图所示的自适应线性神经元(Ada...原创 2019-03-19 19:50:25 · 662 阅读 · 0 评论 -
Python之ML--机器学习分类算法
Python之ML–机器学习分类算法介绍最早以算法方式描述的分类机器学习算法:感知器(perceptron)和自适应线性神经元(adaptive linear neuron).我们将使用python循序渐进地实现一个感知器,并且通过训练使其具备对鸢尾花数据集中数据进行分类的能力主要知识点:机器学习算法的直观知识使用numpy,pandas和matplotlib读取,处理和可视化数据py...原创 2019-03-14 18:50:06 · 484 阅读 · 0 评论 -
Python之ML--计算机学习数据的能力
Python之ML–计算机学习数据的能力主要知识点:机器学习的一般概念机器学习方法和三种类型和基本术语构建机器学习系统所需的模块一.机器学习的三种不同方法介绍三种不同类型的机器学习方法:监督学习(supervised learning),无监督学习(unsupervised learning)和强化学习(reinforcement learning)from IPython.d...原创 2019-03-14 08:40:13 · 246 阅读 · 0 评论 -
ML--支持向量机SVM
ML–支持向量机SVMSVM算法专门解决线性不可分主要涉及的知识点有:支持向量机的基本原理和构造支持向量机的核函数支持向量机的参数调节支持向量机实例–对波士顿房价进行回归分析一.支持向量机SVM基本概念1.支持向量机SVM的原理# 导入numpyimport numpy as np# 导入画图工具import matplotlib.pyplot as plt# 导入支...原创 2019-02-22 20:39:45 · 1269 阅读 · 0 评论 -
ML--神经网络
ML–神经网络主要涉及的知识点有:神经网络的前世今生神经网络的原理和非线性矫正神经网络的模型参数调节使用神经网络训练手写数字识别模型一.神经网络的前世今生其实神经网络并不是什么新鲜事物了,早在1943年,美国神经解剖家沃伦.麦克洛奇(Warren McCulloch)和数学家沃尔特.皮茨(Walter Pitts)就提出了第一个脑神经元的抽象模型,被称为M-P模型(McCullo...原创 2019-02-23 10:50:46 · 1123 阅读 · 0 评论 -
ML--数据预处理,降维,特征提取及聚类
ML–数据预处理,降维,特征提取及聚类主要涉及的知识点有:几种常见的数据预处理工具PCA主成分分析用于数据降维PCA主成分分析和NMF非负矩阵分解用于特征提取几种常用的聚类算法一.数据预处理1.使用StandardScaler进行数据预处理# 导入numpyimport numpy as np# 导入画图工具import matplotlib.pyplot as plt...原创 2019-02-23 22:22:54 · 2648 阅读 · 1 评论 -
ML--数据表达与特征工程
ML–数据表达与特征工程主要涉及的知识点有:使用哑变量对类型特征进行转化对数据进行装箱处理几种常用的数据"升维"方法常用的自动特征选择方法一.数据表达1.使用哑变量转化类型特征哑变量(Dummy Variables),也被称为虚拟变量,是一种在统计学和经济领域非常常用的,用来把某些类型变量转化为二值变量的方法,在回归分析中的使用尤其广泛# 导入pandasimport pa...原创 2019-02-24 10:11:37 · 396 阅读 · 0 评论 -
ML--模型评估与优化
ML–模型评估与优化主要涉及的知识点有:使用交叉验证对模型进行评估使用网络搜索寻找模型的最优参数对分类模型的可信度进行评估一.使用交叉验证进行模型评估在前面的内容中,我们常常使用scikit-learn中的train_test_split功能来将数据集拆分成训练数据集和测试数据集,然后使用训练集来训练模型,再用模型去拟合测试数据集并对模型进行评分,来评估模型的准确度。除了这种方法之...原创 2019-02-24 15:13:56 · 726 阅读 · 0 评论 -
ML--文本数据处理
ML–文本数据处理一直以来,自然语言处理(Natual Language Processing,NLP)作为人工智能的重要分支之一,其研究的内容是如何实现人与计算机之间用自然语言进行有效的通信。自然语言处理中的基础知识–如何对文本数据进行处理主要涉及的知识点有:文本数据的特征提取中文文本的分词办法用n-Gram模型优化文本数据使用tf-idf模型改善特征提取删除停用词(Stopwo...原创 2019-02-24 22:03:32 · 905 阅读 · 0 评论 -
ML--基本概念
ML–基本概念一.机器学习的起源机器学习最早是由一位人工智能领域的先驱Arthur Samuel在1959年提出来的。本意指的是一种让计算机在不经过明显编程的情况下,对数据进行学习,并且做出预测的方法,属于计算机科学领域的一个子集。公认的世界上第一个自我学习项目就是Samuel跳棋游戏二.有监督学习与无监督学习有监督学习在机器学习领域,有监督学习和无监督学习是两种常用的方法。有监督学习是...原创 2019-02-19 19:53:55 · 564 阅读 · 0 评论 -
ML--K最近邻算法
ML–K最近邻算法主要涉及的要点如下:K最近邻算法的原理K最近邻算法在分类任务中的应用K最近邻算法在回归分析中的应用使用K最近邻算法对酒的分类进行建模一.K最近邻算法的原理K最近邻算法的原理,正如–近朱者赤,近墨者黑。想象一个我们的数据集里面有一半是浅色的点,另一半是深色的点。现在我们有了一个新的数据点,颜色未知,怎样判断它属于哪一个分类呢?对于K最近邻算法来说,这个问题就很简...原创 2019-02-19 19:54:29 · 490 阅读 · 0 评论 -
ML--广义线性模型
ML–广义线性模型本节涉及的知识点有:线性模型的基本概念线性回归模型岭回归模型套索回归模型二元分类器中的逻辑回归和线性SVC模型一.线性模型的基本概念线性模型原本是一个统计学中的术语。实际上线性模型并不是特指某一个模型,而是一类模型。在机器学习领域,常用的线性模型包括线性回归,岭回归,套索回归,逻辑回归和线性SVC等1.线性模型的一般公式在回归分析当中,线性模型的一般预测公...原创 2019-02-20 19:01:25 · 422 阅读 · 0 评论 -
ML--朴素贝叶斯
ML–朴素贝叶斯朴素贝叶斯(Naive Bayes)算法是一种基于贝叶斯理论的有监督学习算法。之所以说"朴素",是因为这个算法是基于样本特征之间互相独立的"朴素"假设。正因为如此,由于不用考虑样本特征之间的关系,朴素贝叶斯分类器的效率是非常高的主要涉及的知识点:贝叶斯定理简介朴素贝叶斯的简单应用贝努利朴素贝叶斯,高斯朴素贝叶斯和多项式朴素贝叶斯朴素贝叶斯实例–判断肿瘤是良性还是恶性...原创 2019-02-21 08:52:04 · 579 阅读 · 0 评论 -
ML--k近邻算法
ML–k近邻算法本节内容:k近邻分类算法从文本文件中解析和导入数据使用Matplotlib创建扩散图归一化数值一.K近邻算法概述简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类k近邻算法优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型使用k近邻算法分类爱情片和动作片,根据电影的打斗镜头和接吻镜头...原创 2019-05-09 08:58:11 · 297 阅读 · 0 评论