
机器学习
机器学习的相关笔记及用到的库
68岁爱用飘柔
纵有疾风起,人生不言弃.
展开
-
机器学习7
结果评估1.模型选择我们知道机器选择的过程是训练数据进过训练得到一个函数,然后利用函数来预测未知数据。因此也会出现一些误差:泛化误差:在“未来”样本上的误差经验误差:在训练集上的误差例子:当我们给机器一些树叶让他学习,第一张给他一颗树他显示是树叶【欠拟合】,给他一片树叶能显示时树叶【合适拟合】,给他一片没有锯齿的树叶显示不是树叶【过拟合】对于过拟合和欠拟合我们都有一些方法:AI...原创 2020-02-15 18:46:45 · 369 阅读 · 0 评论 -
机器学习6
其他问题1.隐马尔科夫模型 隐马尔可夫模型是一个关于时序的概率模型,描述由隐马尔科夫链随机生成观测序列的过程。属于生成模型。隐马尔可夫模型在语音识别,自然语言处理,生物信息领域有着广泛的应用。隐马尔可夫模型两个假设:①齐次马尔可夫性假设:即假设隐藏的马尔科夫链在任意时刻t的状态职以来于其钱一时刻的状态,于其他时刻的状态及观测无关,也与时刻t无关。P(it∣it−1,ot−1,....,...原创 2020-02-15 17:33:23 · 259 阅读 · 0 评论 -
机器学习5
聚类问题 聚类问题是无监督学习,算法的思想是“物以类聚,人以群分”。聚类算法感知样本间的相似度,进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值。可以作为一个单独的过程,用于寻找数据内在的分布结构。可以作为分类、稀疏表示等其他学习任务的前驱过程1.K-means K-means(又称k-均值或k-平均)聚类算法。算法思想就是随机确定k个中心点作为聚类中心,然后把每个数...原创 2020-02-15 13:35:03 · 1638 阅读 · 3 评论 -
机器学习4
回归问题 回归分析用于预测输入量变(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量值随之发生变化。只管来说回归问题等价于函数拟合,选择一条函数曲线使其很好的拟合已知数据且很好的预测未知数据。 回归分析根据自变量个数分为【一元回归分析与多元回归分析】,根据自变量与因变量关系分为【线性回归分析与非线性回归分析】,根据因变量个数分为【简单回归分析与多重回归分析】...原创 2020-02-15 12:38:36 · 350 阅读 · 1 评论 -
机器学习3-2
分类问题(下)3.SVM分类支持向量机是一种有监督学习方法,主要思想是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。线型可分支持向量机与硬间隔最大化线型可分支持向量机与软间隔最大化非线性支持向量机与核函数SVM的优点:相对于其他训练分类算法不需要过多的样本,并且由于SVM引入了核函数,所以SVM可以处理高维样本结...原创 2020-02-14 16:24:32 · 428 阅读 · 0 评论 -
机器学习3-1
分类问题(上)分类问题是监督学习的核心,他从出具中学习一个分类决策函数或分类模型,对新的输入进行输出预测,输出变量取有限个离散值。核心算法:贝叶斯,SVM,逻辑回归,决策树1.决策树决策树是一个树的结构,每个非叶节点单表示一个特征属性,每个分支边代表这个特征属性在某个值域上的输出,每个叶节点存放一个类别。决策过程:从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,知道到...原创 2020-02-14 15:22:00 · 309 阅读 · 0 评论 -
机器学习2
二、数据处理与特征工程1.问题提出还是大家熟悉的最常见的鸢尾花分类问题:如何根据鸢尾花的花萼和花瓣大小将其分为三种不同的品种?2.机器如何学习数据预处理【数据清洗,数据集拆分,数据采样】——》特征工程【特征编码,特征选择,特征将维,规范化】——》数据建模【回归问题,分类问题,聚类问题,其他问题】——》结果评估【拟合度量,查准率,查全率,F1值,DP曲线,POC曲线】2.1数据清洗对各...原创 2020-02-13 23:53:13 · 479 阅读 · 0 评论 -
机器学习1
一、概论1.什么是机器学习机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。机器学习是一门多领域的交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科。专门研究计算机怎么样模拟或实现人类的学习行为,以获得新知识或技能,重新组织已有的知识结构使之不断改善自身性能。2.机器学习一般过程一句话:将训练数据进行训练得出一个公式,然后利用这个公式把测试数据通过运算...原创 2020-02-13 22:58:38 · 563 阅读 · 0 评论 -
机器学期——贝叶斯分类实战
贝叶斯分类实战一、分类基本概念1.分类在数据挖掘中的定义:分类就是把一些新的数据项映射到给定类别的中的某一个类别分类属于有监督学习,与之相对应的是无监督学习,比如聚类分类和聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。2.分类流程步骤一、将样本转化为等维的数据特征(特征提取)。所有样本必须具有相同数量的特征。兼顾特征的全面性和独特性。动物种...原创 2020-02-01 20:28:38 · 707 阅读 · 0 评论 -
机器学习——线型回归预测实战
线型回归分类——》离散的:明天的天气回归——》连续的:房价的预测一、原理:回归的由来: “回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。 为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身...原创 2020-02-01 18:16:12 · 544 阅读 · 0 评论 -
python机器学习Scikit-learn库
Scikit-learn库概述 1.Scikit-learn库最早由数据科学家David Cournapeau在2007年发起,使用需要Numpy和Scipy等其他库的支持,是Python中专门针对机器学习应用而发展起来的一款开源扩展库。 2.和其他众多的开源项目一样,Scikit-learn目前主要有社区成员自发进行维护 3.Scikit-learn相比其他开源项目显得更为保守,主...原创 2020-01-31 18:29:17 · 1068 阅读 · 0 评论 -
决策数算法——鸢尾花分类实战
鸢尾花分类实战:鸢尾花数据集是机器学习领域一个非常经典的分类数据集。接下来,我们就用这个作为训练集为基础,一步一步地训练机器学习模型。首先我们来看下数据集的基本构成。数据集名称的准确名称为 Iris Data Set,总共包含了150行数据。每一行数据由4个特征值及一个目标值组成。其中4个也正值分别为:儿骗长度,儿骗宽度,滑板长度,花瓣宽度。而目标值及为三中不同类别的鸢尾花,分别为:Iris S...原创 2020-01-31 18:04:25 · 468 阅读 · 0 评论 -
python机器学习基础
机器学习基础定义机器学习是一门综合性非常强的多领域交叉学科,设计线性代数,概率论,统计学,算法复杂度理论等多门学科机器学习根据已知数据来不断学习和基类经验,然后总结出规律并尝试预测未知数据的属性。机器学习可利用数据或经验等不断改善自身的性能机器学习是目前弱人工智能的核心,其应用十分广泛,如计算机视觉,自然语言处理,生物特征识别,搜索引擎,垃圾邮件过滤,推荐系统,广告投放,信用评...原创 2020-01-30 21:17:26 · 338 阅读 · 0 评论