
机器学习复习
宫城诗
这个作者很懒,什么都没留下…
展开
-
20191204——机器学习复习 无监督k-means算法
k-means的步骤1)随机设置k个特征空间内的点作为初始的聚类中心2)对于其他每个点计算到K个点中心的距离,未知的点选择最近的一个聚类中心点作为标记3)接着对标记的聚类中心之后,重新计算出每个聚类的中心点(平均值)4)如果计算得到的新的中心点与原中心点一样,那么结束,否则重新进行第二步过程k是超参数1)看需求2) 网格搜索,调节超参数API聚类的评估模型我们认为这样的...原创 2019-12-04 12:20:19 · 141 阅读 · 0 评论 -
20191204——机器学习复习 模型的加载
原创 2019-12-04 12:06:45 · 138 阅读 · 0 评论 -
20191204——机器学习复习逻辑回归的评估方法
精确率和召回率混淆矩阵精确率:在预测结果为正列样本,真实为正的概率召回率:真实样本为真,预测结果为真的概率ROC曲线和AUC指标TPR就是召回率FPR什么都不是AUC只能用来二分类AUC非常适合评价样本不均衡的性能AUC就是ROC曲线的面积...原创 2019-12-04 12:04:21 · 148 阅读 · 0 评论 -
20191204——机器学习复习 逻辑回归
逻辑回归 logistic Regression 是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字带有回归,但是它与回归之间有一定的联系,由于算法的简单和高效,在实际应用中非常广泛逻辑回归的场景逻辑回归就是解决二分类问题的利器激活函数相当于用回归转换成分类了损失函数均方误差/最小二乘法优化损失逻辑回归的损失,称之为对数似然损失优化还是用梯度下降优化算法...原创 2019-12-04 11:44:02 · 160 阅读 · 0 评论 -
20191204——机器学习复习 岭回归
岭回归也是一种线性回归,只不过在算法建立回归方程的时候,加上正则化的限制,从而达到解决拟合的效果alpha 正则化力度 惩罚项系数solver 会根据数据自动选择优化方法normalize 是否对数组进行标准化还有coef 权重系数intercept 回归偏置...原创 2019-12-04 11:24:21 · 103 阅读 · 0 评论 -
20191204——机器学习复习 欠拟合与过拟合
问题提出我们有时候在训练集训练的很好,可是在测试集上结果就不是很理想出现了过拟合欠拟合 —— 学习到的特征太少了过拟合—— 学习到的特征太多了定义:欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据上也不能很好地拟合数据过拟合:在训练数据上比其他假设更好的拟合数据解决方案正则化L2正则化(更常用): 尽量减少高次项特征的影响,可以使得其中一些W都很小,接近为0,削弱...原创 2019-12-04 11:10:17 · 165 阅读 · 0 评论 -
20191204——机器学习复习 线性回归
回归问题目标值 - 连续型的数据线性回归的应用场景房价预测销售额度预测金融什么是线性回归线性回归(Linear regression)是利用回归方程对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种方式找到函数关系 来表示目标值与特征值之间的关系线性回归线性回归模型有两种,一种是线性关系,另一种是非线性关系单特征与目标值的关系呈直线关系,或者两个特征与...原创 2019-12-04 10:27:01 · 114 阅读 · 0 评论 -
20191203——机器学习复习 小结
转换器与预估器转换器——特征工程预估器——机器学习算法KNN算法k近邻算法,根据邻居来确定你的类别谁是邻居 距离(很多种)k的取值 k小容易收到异常值影响 k过大样本不均衡的影响时间复杂度高,适合小数据朴素贝叶斯朴素+贝叶斯假定特征与特征之间相互独立拉普拉斯平滑系数应用场景:文本分类决策树信息增益,找到最高效的决策顺序总的信息熵-条件熵可视化强容易过拟合随机森林...原创 2019-12-03 21:54:16 · 141 阅读 · 0 评论 -
20191203——机器学习复习 随机森林
集成学习集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习做出预测,这些预测最后结合成组合预测,因此优于任何一个单分类做出的预测随机森林是一个包含多个决策树的分类器随机森林原理特征值随机 bootstrap 随机有放回抽样训练集随机 从M抽取m的特征M远远大于m起到降维效果apisklearn.ensemble.RandomF...原创 2019-12-03 21:48:18 · 187 阅读 · 0 评论 -
20191203——机器学习复习 泰坦尼克号生存
age数据段有缺失流程处理好特征值与目标值获取数据数据预处理 缺失值处理如果有多种特征类别,先转换成字典,然后进行字典类型抽取准备特征值,目标值划分数据集特征工程决策树预估器流程模型评估缺失值填补x[“age”].fillna(x[“age”].mean(),inplace=True)...原创 2019-12-03 21:07:42 · 213 阅读 · 0 评论 -
20191203——机器学习复习 决策树
如何高效的进行决策特征的先后顺序决策树分类原理已知四个特征, 预测是否贷款给某个人引入信息熵信息论基础香浓定义:消除随机不定性的东西信息的衡量信息量 信息熵信息增益特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)拿总的减去 已知这个条件的信息熵那么就得到了这个特征A的信息增益决策树划分的依据决...原创 2019-12-03 20:47:43 · 183 阅读 · 0 评论 -
20191203——机器学习复习 朴素贝叶斯
朴素贝叶斯的结果是得出来概率值根据概率值进行分类p喜欢 = 4/7p程序员,匀称 = 1/7p程序员|女神喜欢 = 1/2p程序员,超重|女神喜欢= 1/4联合概率,条件概率与相互独立相互独立, A的事件发生不影响B事件贝叶斯公式p女神喜欢|产品经理,超重 = p产品经理,超重|女神喜欢 * p女神喜欢 /p产品经理,超重朴素贝叶斯 的 朴素 就是假定事件都相互...原创 2019-12-03 14:24:17 · 175 阅读 · 1 评论 -
20191203——机器学习复习 预测facebook签到位置
数据集介绍facebook发布的一个比赛特征有五个row_id :id of the-check-in eventx,y : 坐标系accuary : 定位准确率time : 时间戳place_id : 用户最后要签到的位置是哪流程分析获取数据数据预处理缩小数据范围 去 2<x<2.5 1.0<y<1.5时间不能以时间戳的形式年月日时分秒 ...原创 2019-12-03 11:03:02 · 674 阅读 · 2 评论 -
20191203——机器学习复习 模型选择与调优
模型选择与调优在knn算法中,k的选择是一个重要的问题那么有没有一种办法能选择准确的K值模型选择与调优可以实现什么是交叉验证交叉验证:我们拿到的训练数据,分为训练集和验证集。将数据分为4份,其中一份作为验证集,然后经过4组的测试,每次都更换不同的验证集,即得到4组的结果,取平均值作为最终结果,又称4折验证。让结果更加准确超参数,网格搜索如果选择最好的k值,让k有一个集合,从集合中遍...原创 2019-12-03 10:34:22 · 168 阅读 · 0 评论 -
20191203——机器学习复习 knn算法
knn算法也叫k近邻算法k为一个常数n 为nearestn neighbor核心思想:根据你的邻居来确定你的位置定义:如果一个样本在特征空间中的k个最相似,即特征空间中最邻近的样本大多数属于一个类别,则这个样本也属于这个类别k如果取1 容易取到异常点的影响如何确定距离?计算距离:距离公式 ,最常见的是欧式距离曼哈顿距离 绝对值距离明可夫斯基距离实例 判断电影如果k值较...原创 2019-12-03 10:13:06 · 201 阅读 · 0 评论 -
20191203—— 机器学习复习 sklearn转换器与预估器
转换器特征工程的父类实例化的是一个转换器类 Transformer调用fit_transform那么fit 与 transform到底都在干什么呢以标准化为例(x-mean)/stdfit 计算每一列的平均值与标准差transform 进行最终的转换 调用公式估计器估计器,是实现了算法的API在sklearn中算法都是estimator的子类实例化一个estimat...原创 2019-12-03 09:45:57 · 186 阅读 · 0 评论 -
20191202——机器学习复习 小结
数据集可用数据集sklearn数据集load fetch bunch类型 数据集划分数据集划分model.selection.train_test_split()特征抽取feature_extraction字典抽取 DictVectorizer sparse矩阵文本特征抽取 CountVectorizer TfidVectorizer特征预处理无量纲化处理标准化 Stand...原创 2019-12-02 21:51:58 · 115 阅读 · 0 评论 -
201911202——机器学习复习 探究用户对物品类别的喜欢细分降维
要找到用户与物品类别的关系需要将user_id 和aisle放在一个表中找到这两个的关系交叉表和透视表有大量的0 特征冗余过多 需要降维 PCA降维应用到的PCA降维...原创 2019-12-02 21:44:25 · 286 阅读 · 0 评论 -
20191202——机器学习复习 主成分分析
主成分分析(PCA)定义将高维数据转换为低维数据的过程,在过程中可能会舍弃原有数据、创造新的变量。作用是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息应用回归分析或者聚类分析当中pcasklearn.decomposition.PCA(n_components=)小数是保留多少百分比的信息整数就是保留多少个特征信息from sklearn.decompositi...原创 2019-12-02 21:08:26 · 149 阅读 · 0 评论 -
20191201——机器学习复习 特征降维
降维:降低维度维数: 嵌套的维数降维是二维数组降低特征的个数定义:降维是指在某种限定条件下,降低随机变量的个数,得到一组不相关主变量的过程。要求特征与特征之间不相关。相关:相对湿度与降雨量 可能相关正是因为进行训练的时候,我们都是使用特征学习。如果特征学习本身存在问题或者特征之间关联性比较强,对于算法学习预测会影响很大降维的方法特征选择主成分分析特征选择数据中包含冗余或相关...原创 2019-12-02 20:52:20 · 283 阅读 · 0 评论 -
20191201——机器学习复习 特征预处理
特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程有归一化 与 标准化但是归一化都不怎么使用特征预处理API sklearn。proprocessing为什么要进行预处理特征的单位或者大小相差较大,或者某个特征的方差相比其他的特征要大出来几个数量级,容易影响支配目标结果,使得一些算法无法学习到其他的特征这些特征的数量级都不太一样归一化将原始数据映射到0到...原创 2019-12-01 20:41:05 · 141 阅读 · 0 评论 -
20191201——机器学习复习 特征工程
为什么需要特征工程数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程特征工程是专业背景和知识和技巧处理数据,使得机器学习算法上发挥更好的作用。意义:会影响机器学习的效果特征工程包括,特征抽取,特征预处理,特征降维机器学习算法 = 统计方法 , 数学公式特征抽取/提取文本类型 类类型主要是因为数据无法直接用于机器学习进行训练,要进行抽取与提取,方便于...原创 2019-12-01 20:12:38 · 181 阅读 · 0 评论 -
20191201——机器学习复习 sklearn数据集
获取数据集sklearn.datasets是一个类 获取数据集有两种方法datasets.load_*datasets.fetch_*load用于获取小规模的数据集fetch用于获取大型的数据集当我们调用数据后,会返回一系列的数据在fetch函数中,有一个subtest参数,train/test/all 分别为测试集,训练集,所有鸢尾花数据集介绍数据集返回的是一个叫Bunch类...原创 2019-12-01 16:54:45 · 234 阅读 · 0 评论