
机器学习
这学期也要学,记笔记+1
_qz
这个作者很懒,什么都没留下…
展开
-
聚类
文章目录一、概述1.数据挖掘对聚类分析方法的要求2. 聚类在数据挖掘中的典型应用二、性能度量1. 外部指标2. 内部指标三、距离计算四、原型聚类1.K均值算法2. 学习向量量化(LVQ)3. 高斯混合聚类五、密度聚类1. DBSCAN(Density-Based Clustering)六、层次聚类1. AGNES一、概述1.数据挖掘对聚类分析方法的要求可伸缩性:指算法无论对于小数据还是发数据都应该有效。具有处理不同类型属性的能力:即可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以原创 2020-11-14 22:07:21 · 411 阅读 · 0 评论 -
六、 集成学习(下)
文章目录一、 结合策略1. 平均法2. 投票法3. 注意4. 学习法----Stacking一、 结合策略1. 平均法对于数值型输出,最常见的结合策略是使用平均法简单平均法h(x)为基学习器的输出加权平均法基学习器的权重一般是根据训练数据得到的,所以不完全可靠,对于规模较大的集成学习来说,容易造成过拟合,所以加权平均不一定优于简单平均。一般而言,在基学习器性能相差较大时,选择加权平均,基学习器性能类似时,选择简单平均。2. 投票法绝对多数投票法得票最多的类别要超过50%,否.原创 2020-10-26 21:20:56 · 632 阅读 · 0 评论 -
OneHotEncoder
原数据:data中的division属性为无顺序字符串,转独热编码。步骤建立编码器训练并转换原数据删除要转独热编码的属性原数据合并转换后的数据1. 建立编码器from sklearn.preprocessing import LabelEncoder,OneHotEncoderdivision_ohe = OneHotEncoder()2. 训练并转换df = division_ohe.fit_transform(data['division'].values.reshape(原创 2020-10-25 14:02:18 · 389 阅读 · 0 评论 -
LabelEncoder
一、概述在使用回归模型和机器学习模型时,所有考察数据都是数值更容易得到更好的结果。因为都是基于数学函数方法的,所以当数据集中出现类别数据时,此时数据是不理想的,不能用数学方法处理它们。例如处理性别属性时,将男和女两个性别数据用0和1进行代替。二、代码1. LabelEncoderlabel_le = LabelEncoder()data['salary'] = label_le.fit_transform(data['salary'])#对数据集中的salary属性进行labelencode原创 2020-10-25 11:41:22 · 1882 阅读 · 0 评论 -
pandas-profiling数据分析预览
导入包import pandas as pdimport pandas_profiling生成报告#data为DataFrame类型数据pandas_profiling.ProFileReport(data)导出报告prf = pandas_profiling.ProfileReport(data)prf.to_file('report.html')报告详细内容1. 总缆首先是总览 Overview,包含数据集的一些信息:行数列数数据缺失率占用内存大小属性值的类型的统原创 2020-10-25 11:18:02 · 297 阅读 · 0 评论 -
六、集成学习(上)
一、 个体与集成集成学习:通过构建并结合多个学习器来完成任务,也称为多分类器系统。基于委员会的学习1. 集成的方式同质集成:集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”异质集成:个体学习器由不同的学习算法生成。不存在“基学习算法”2. 如何得到好的集成:个体学习器“好而不同”3. 集成学习算法二、BoostingBoosting是一族可将弱学习器提升为强学习器的算法,它的思想起源于Valiant提出的PAC(Probably Approximate.原创 2020-10-20 16:56:43 · 160 阅读 · 0 评论 -
三、比较检验
文章目录一、概述二、 具体检验方法1. 估计假设精度2. 采样理论基础3. 多次训练/测试的检验 - t检验4. 交叉验证t检验1. 基本思路5. MCNemar检验6.Friedman检验和Nemenyi后续检验一、概述比较检验的重要方法是统计假设检验,它为我们进行学习器性能比较提供了重要依据。统计假设检验:假设检验步骤:带入机器学习:二、 具体检验方法1. 估计假设精度区分两种错误率:errors(h)在何种程度上提供了对errorD(h)的估计?2. 采样理原创 2020-10-11 22:12:07 · 1816 阅读 · 0 评论 -
2. AUC的四种计算方法
1. 定义法POC曲线横轴为FPR:假正例率,纵轴为TPR:真正例率。AUC其实就是ROC曲线下的面积:m为总样本个数2. 排序损失法形式化的看,AUC考虑的是样本预测的排序质量,因此与排序误差有紧密联系。给定 m+ 个正例和m-个反例,令D+和D-分别表示正、反例集合,则排序损失定义为:解释:排序是按照样本被预测成正例的概率由大到小降序排列。理想中的预测是正例都排在反例的前面。但是不一定会是理想的,有可能出现了损失:有的反例出现在了正例的前面,但是要怎样计算这种损失呢?遍历每一个反例原创 2020-10-05 19:05:58 · 6958 阅读 · 0 评论 -
2.数据集划分与性能度量
一、 经验误差与过拟合错误率:把分类错误的样本数占样本总数的比例,如果m个样本中有a个样本分类错误,则错误率E = a/m精度:1- a/m训练误差(经验误差):学习器在训练集上的误差泛化误差:在新样本上的误差过拟合:对训练样本某些特点学的太过,导致泛化性能下降欠拟合:对训练样本的一般性质尚未学好二、 数据集划分1. 留出法留出法直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。常见做法为:1/5 ~ 1/3 样本作为测试集训练/测试集的划分要尽可能保原创 2020-09-20 20:20:34 · 753 阅读 · 0 评论 -
1. 绪论
1. 基本术语1. 基本概念分类: 预测的值是离散值回归: 预测的值是连续值数据集:所有记录的集合样本或实例:每一条记录特征或属性:单个的特点,一条记录构成一个特征向量维数:一个样本的特征数泛化能力: 学得模型适用于新样本的能力2. 机器学习的学习任务分类根据训练数据是否拥有标记信息可分:监督学习:分类和回归为代表无监督学习:聚类为代表3. 机器学习目标使学得的模型更好的适用于新样本,不是仅仅在训练样本上工作的好2. 假设空间归纳学习有狭义和广义之分,广义学习的归.原创 2020-09-20 14:35:46 · 145 阅读 · 0 评论