
机器学习
joker_shy
这个作者很懒,什么都没留下…
展开
-
机器学习——降维
主成分分析(PCA)1.主成分分析法是降维的最常使用的算法。2.在PCA中,要做的是找到一个方向向量(Vector direction),当把所有的数据都投射到该向量上时,希望投射距离均方差能尽可能地小。3.方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。4.主成分分析最小化的是投射距离误差(Projected Error)。主成分分析问题1.PCA将n个...原创 2019-07-29 14:08:12 · 2650 阅读 · 1 评论 -
机器学习——PCA
PCA主成分分析介绍PCA是一种无监督学习的降维技术思想1.投影后样本越分散,保留的信息越多2.PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征做法1.将所有的样本点向直线w投影2.目标函数:让投影后样本的方差极大PCA的一般执行步骤第一步:X减去均值第二步:对协方差矩阵XXT做特征值分解,得到特征...原创 2019-08-08 16:13:26 · 1700 阅读 · 0 评论 -
机器学习——交叉验证
交叉验证定义交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一...原创 2019-08-13 21:00:18 · 1605 阅读 · 0 评论 -
机器学习——共享的单车实战演练
数据数据下载地址 http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset案例分析1.拿到这个数据需要删除那些没有用的列,比如序号2.进行独热编码3.进行多项式扩展4.标准化5.切分数据集6.建立模型求出数据代码如下import pandas as pdfrom sklearn.model_selection im...原创 2019-08-09 15:03:39 · 2142 阅读 · 0 评论 -
机器学习——线性回归练习
模型这里的模型我们用的是波士顿房价的模型题目要求1. 导入数据,导入datasets2. 导入Linear Regression 算法3. 用datasets.load_boston()的形式加载数据4. 将属性存在X中5. 将真实房价存在Y中6. 建立线性回归模型7. 训练模型8. 分别打印预测值和真实值,预测用data_x的前4个数据来预测代码如下from sklear...原创 2019-08-09 16:43:16 · 1750 阅读 · 0 评论 -
机器学习——PCA练习
数据集这里用到的数据集是鸢尾花数据集题目要求1. 导入必要的库2. 加载sklearn库自带的鸢尾花数据集3. 将数据集划分为样本特征和样本类型4. 构建PCA实例,其中n_components设置为25. 传入数据给模型6. 打印输出所保留的n个成分各自的方差百分比7. 对花的颜色进行特征分组,分为:[‘navy’, ‘turquoise’, ‘darkorange’]8. ...原创 2019-08-09 16:52:18 · 2268 阅读 · 0 评论 -
机器学习——网格搜索
网格搜索特点网格搜索类似于穷举法,来确定模型参数的一个最优的组合,但相应的会大量的增加计算时间,但精确率等指标会很高代码如下import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection im...原创 2019-08-14 09:58:17 · 3832 阅读 · 0 评论 -
机器学习——特征值分解
特征值特征向量的定义Aα = λα(α不等于0)A是一个n阶矩阵α是n维的非零向量λ是一个常数如果Aα = λα(α不等于0)那么λ称为A的特征值,α就是A的对于特征值λ的特征向量如果n个特征向量线性无关那么就可以进行特征的分解特征值分解n个特征向量线性无关可以进行特征分解A=WΣW-1其中W是这n个特征向量所张成的n×n维矩阵,并对n个特征向量标准化,而Σ为这n个特征值为主对...原创 2019-08-07 18:18:20 · 3070 阅读 · 0 评论 -
机器学习——奇异值分解
奇异值分解奇异值分解是一种矩阵因子分解方法,是线性代数概念,但在统计学习中被广泛使用,成为其重要工具主要应用 在主成分分析、潜在语义分析上奇异值分解的矩阵不需要是方阵,任意矩阵都可以进行分解,都可以表示为三个矩阵的乘积(因子分解)形式,分别是m阶正交矩阵、由降序排列的非负对角线元素组成的m×n矩形对角矩阵和n阶正交矩阵,称为该矩阵的奇异值分解。矩阵的奇异值分解一定存在,但不唯一。奇异值分解...原创 2019-08-07 19:49:34 · 2619 阅读 · 0 评论 -
机器学习——奇异值分解python实现
import numpy as npdata = np.array([[3, 4, 1, 6, 4], [2, 3, 5, 4, 0], [3, 3, 1, 0, 0], [5, 5, 6, 2, 2], [0, 2, 3, 3, 3], ...原创 2019-08-08 15:55:36 · 1904 阅读 · 0 评论 -
机器学习——决策树
决策树的引入决策树的结构根节点决策节点(内部节点)叶节点决策树构建最关键的一点是判断谁来当根节点,就像这个相亲问题,能一个问题判断出来就不需要问其他的问题了,所以选那个为根节点就显得尤为重要,这样不仅能增加我们的运算效率,还能减少错误的产生构建决策树1.计算熵值构建决策树的第一点,就是计算根节点的熵值,选取熵值小的,能有效的减少数的深度,查看哪个特征对结果产生最直接的影响,方便后...原创 2019-07-28 20:55:21 · 2863 阅读 · 1 评论 -
机器学习——逻辑回归
逻辑回归的概念逻辑:逻辑,源自古典希腊语 (logos),最初的意思是“词语”或“言语”,引申意思是“思维”或“推理”。 1902年,教育家严复将其意译为“名学”,音译为“逻辑”。回归:回归是统计学的一个重要概念,其本意是根据之前的数据预测一个准确的输出值。逻辑回归是目前使用最为广泛的一种学习算法,用于解决分类问题。与线性回归算法一样,也是监督学习算法。分类问题为什么不用线性回归对于分类...原创 2019-07-29 15:16:55 · 2507 阅读 · 0 评论 -
机器学习——专业名词
英文及中文解释机器学习——Machine Learning知识图谱——Knowledge Representation推荐系统——Recommender Systems监督学习——Supervised Learning无监督学习——Unsupervised Learning半监督学习——Semi-supervised Learning集成学习——Ensemble Learning...原创 2019-08-02 16:33:41 · 3189 阅读 · 0 评论 -
机器学习——pandas库使用
DataFrame关于pandas库中DataFrame的使用,DataFrame表示的是一个有序的表格,DataFrame有自己的行索引和列索引,这与Series不同,Series只有列索引,DataFrame每一列,每一行都可以是不同的数据类型,接下来让我们来看一下DataFrame的使用创建DataFrameimport pandas as pddata = pd.DataFrame...原创 2019-08-03 08:49:48 · 2540 阅读 · 0 评论 -
机器学习——基础
什么是机器学习程序从经验中(E)学习,达到一定的性能(P),完成特定的任务(T)机器学习的应用无人直升机,手写体识别,大量的自然语言处理,电脑视觉机器学习的例子### 监督学习垃圾邮件分类房价预测肿瘤分类### 非监督学习...原创 2019-07-26 16:00:38 · 2466 阅读 · 0 评论 -
机器学习——单变量线性回归
房价预测问题你有一个10000平方英尺的房子,现在要进行转买,能卖多少钱呢?单变量线性回归,顾名思义是一个变量对结果产生的影响,例如上题房屋面积对房屋价格的影响回归是统计学的一个重要概念,其本意是根据之前的数据预测一个准确的输出值,解题思路如下:1、定义一个模型 hθ(x)=θ0+θ1x,并初始化θ0 θ1的值就会产生一个如下的图像然后就会发现这条直线并不能很好的弥合这些数据,所以需要...原创 2019-07-26 19:17:19 · 2699 阅读 · 2 评论 -
机器学习——多变量线性回归
房价预测问题这里我们还是用房价预测的问题来举例说明,你有一个房子需要转卖,但不知道 能卖多少,需要进行预测,而对于房子能卖多少钱,能对这个结果产生影响的不单单是,房屋的面积了,房子的地理位置,房子的楼层数等都会对价格产生影响,这样我们就需要使用多变量线性回归来预测房价了解决思路1.这里我们需要先去处理一下数据,先对模型的特性值进行特征缩放,为什么要进行特征缩放呢,第一点是可以帮助梯度下降更...原创 2019-07-27 09:34:36 · 2878 阅读 · 2 评论 -
机器学习——聚类
超市选址问题这里我们又用到机器学习的一个新算法,聚类,聚类是无监督算法的一个重要算法,如图所示绿点代表住户,×点代表超市,每个用户离拿个超市近就会去哪个超市,然后就会分到这个超市然后用户就被分成红蓝两组但这不是最合理的位置,经过多次迭代,计算最终会取得一个最好的结果这就是聚类的K均值算法思路讲解1.我们需要先确定需要几个超市,这就用到了‘肘部法则’来确定K,,我们是改变K值,计算代价...原创 2019-07-27 10:58:29 · 2756 阅读 · 0 评论 -
机器学习——pandas库实战演练
题目(1)加载bank数据集,删除账户号列,增加每月还款额列(每月还款额列=贷款金额/贷款期限)(5分)(2)对还款状态进行计数(6分)(3)按照还款状态进行分组,计算贷款金额的最大值(7分)(4)输出每月还款额的最大值与中位数(6分)(5)对数据进行二次排序,按照贷款期限升序,每月归还额降序(8分)(6)提取贷款号在50006000并且发放贷款日期在1993-07-111998-11...原创 2019-08-05 20:06:55 · 2191 阅读 · 0 评论 -
机器学习——朴素贝叶斯
定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数...原创 2019-08-15 19:39:11 · 1083 阅读 · 0 评论