
机器学习
进行机器学习相关课程的笔记总结
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【机器学习】快速贴标签和找标签对应的数据
快速贴标签和找标签对应的数据前言需求一、贴标签二、找标签对应的数据总结前言需求在进行机器学习的过程中,模型创建之前,需要进行标签的处理,比如将文本数据转化为数值,而在最后的预测时候,又想检验一下预测的标签结果是否对应的文本数据一致,因此就有了快速贴标签和找标签对应数据的要求。一、贴标签这里就使用10个文本数据进行举例ls = ["汽车", "财经", "科技", "健康", "体育", "教育","文化","军事","娱乐","时尚"]贴标签的过程就相当于是让列表中的数据一一对应上数值,那么使原创 2020-10-11 10:22:42 · 4488 阅读 · 0 评论 -
【机器学习17】聚类K-MEANS和DBSCAN算法详解
聚类算法详解前言一、K-MEANS算法1.基本流程2.优缺点二、DBSCAN算法总结前言前面已经介绍了决策树模型和集成学习模型等内容,无论使用它两用来做回归还是分类任务都是有一个预定对比的y值(也就是标签),如果数据中没有这个标签了,只是一群离散的值,该怎么处理呢?这就涉及到本次梳理的内容了,也就是聚类问题(属于无监督,没有预定对比的条件了),最终目的要是把相似的东西分到一组,主要的难点在于如何对创建的模型进行评估和参数调整,因为没有y了,之前的那些评估的方法也自然就不适用了,本次梳理将详细地介绍相关的原创 2020-09-21 22:20:12 · 7100 阅读 · 1 评论 -
【机器学习】集成学习及算法详解
集成算法详解前言一、随机森林算法原理二、随机森林的优势与特征重要性指标1.随机森林的优势2.特征重要性指标三、提升算法概述四、堆叠模型简述五、硬投票和软投票1.概念介绍2.硬投票代码实现3.软投票代码实现六、Bagging策略效果七、决策边界可视化展示八、OOB袋外数据的作用九、特征重要性可视化展示十、AdaBoost算法决策边界展示十一、Gradient Boosting梯度提升算法十二、集成参数对比分析十三、提前停止策略总结前言前一篇博客对决策树算法进行了详解,属于建立模型的基础,如果想要机器学习的原创 2020-09-20 21:54:14 · 6508 阅读 · 3 评论 -
【机器学习15】决策树模型详解
决策树算法前言一、决策树算法的概述1.树模型2.树模型基本流程二、熵的作用三、决策树构造实例四、信息增益率和gini系数五、剪枝方法六、分类、回归任务七、树模型的可视化展示八、决策边界展示分析九、决策树预剪枝常用参数十、回归树模型总结前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的决策树的详细内容。一、决策树算法的概述1.树模型决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。原创 2020-09-19 20:12:26 · 39204 阅读 · 25 评论 -
【机器学习(14)】指定路径下文件的选取、数据缺失值查询及处理、帕累托分析、多文件数据合并与线性回归预测一条龙解析(全过程函数式编程)
1. 指定路径下文件的选取 一般工作或者科研过程中,往往需要对某一文件夹中的多个文件数据进行处理,那么数据处理之前需要先定位保存该数据文件的位置,也就是找到文件所在的路径,方便进行数据的读取,关于文件路径读取的方式,这里介绍三种 1) os.walk() 方法&nbs...原创 2020-03-19 00:47:01 · 702 阅读 · 0 评论 -
【机器学习(13)】参数搜索相关概念及sklearn中代码实现
1. 参数相关概念1) 参数类型 一般参数:模型通过最小化损失函数自动求解的参数 超参数:不能通过模型对数据进行学习而求解的参数,比如神经网络的层数、正则系数的alpha值等2) 参数搜索: 超参数...原创 2020-03-06 11:08:31 · 773 阅读 · 0 评论 -
【机器学习(12)】集成学习:随机森林和XGBOOST基础讲解及代码实现
1. 集成学习基础介绍1) 概念: 通过构建并结合多个模型来共同完成学习任务2) 流程: ①构建多个子学习器 ②使用某种集成策略将模型集成 &nb...原创 2020-03-06 10:18:11 · 1876 阅读 · 1 评论 -
【机器学习(11)】决策树模型:CART分类及回归树可视化
1. 决策树模型1) 概念: 基于树形结构来拟合自变量与因变量之间的关系2) 划分算法: 选择最佳划分特征及特征中最佳划分点位置的算法(三大类别) ID3: 信息增益判断; C4.5: 信息增益率判断; &nb...原创 2020-03-05 19:51:12 · 3534 阅读 · 0 评论 -
【机器学习(10)】模型评价:数据集划方法(留出法和交叉验证法)
数据集划分方法1) 划分基本准则:保持训练集和验证集之间的 互斥性 准则解释:测试样本尽量不在训练样本中出现,以保证验证集上的表现能代表模型的泛化能力(比如期末测试题上出的内容不是课上讲的原题)2) 留出法: 直接将数据集划分成两个互斥的集合,其中一个做训练集,一...原创 2020-03-05 17:29:33 · 2015 阅读 · 0 评论 -
【机器学习(9)】分类模型的常用评价指标:准确率Accuracy、查准率Precision、查全率Recall、图形面积AUC
模型评价:分类模型的常用评价指标1) 基本指标:误差率 指标解释:错分类样本占总样本的比例2) 基本指标:准确率 指标解释:正确分类样本占总样本的比例 指标解读:准确率越接近1,模型越准确3) 混...原创 2020-03-05 17:29:15 · 3479 阅读 · 0 评论 -
【机器学习(8)】回归模型的常用评价指标:均方差MSE、均绝对误差MAE、均绝对比例误差MAPE、相关性系数R2
模型评价:回归模型的常用评价指标1) 样本误差:衡量模型在一个样本上的预测准确性 样本误差 = 样本预测值 - 样本实际值2) 最常用的评价指标:均误差方(MSE) 指标解释:所有样本的样本误差的平方的均值 &n...原创 2020-03-05 17:28:48 · 7823 阅读 · 0 评论 -
【机器学习(7)】特征工程:共线性、降维、扩展
1. 共线性1) 特征间共线性: 两个或多个特征包含了相似的信息,期间存在强烈的相关关系2) 常用判断标准: 两个或两个以上的特征间的相关性系数高于0.83) 共线性的影响: 降低运算效率&nb...原创 2020-03-05 12:06:17 · 3263 阅读 · 2 评论 -
【机器学习(6)】数据预处理:预处理、标准化和数据纠偏
数据与处理与特征工程概念:数据预处理与特征工程泛指对训练数据集进行特征增加、删除、变换的方法目标:通过对训练数据的处理变换,提高模型训练表现和泛化能力类别: 特征变换:预处理、标准化、纠偏 特征增加与删减:特征降维与变量扩展模型评价体系...原创 2020-03-05 10:46:36 · 5117 阅读 · 1 评论 -
【机器学习(5)】Scikit-learn创建线性回归模型(LinearRegression、Lasso及Ridge)和逻辑回归模型(logistic)
1. 数据加载假如进行房价的预测,这里加载的数据共1000条,共十个维度(十个特征),除了id以外,其余的都是自变量(9个可用)import pandas as pdimport numpy as np import osimport matplotlib.pyplot as pltos.chdir(r"C:\Users\86177\Desktop")df = pd.read_cs...原创 2020-03-01 21:28:46 · 2216 阅读 · 0 评论 -
【机器学习(4)】逻辑回归、损失函数、梯度下降法、惩罚模型
Logistic回归主题思想:通过对数据的分类边界线建立回归公式,从而实现分类激活函数将连续的数值转化为0和1输出;其中第一个函数实现0到1的数据转换是不平滑的,有跳跃(求极值的过程会有麻烦),而第二个函数是渐变平滑的Logistic回归实现的过程:如下图1) 将样本特征值与回归系数相乘2)再将所有的特征值与回归系数的乘积相加3)最后将加和代入sigmoid函数4)输出一个范围...原创 2020-03-01 18:21:45 · 4836 阅读 · 0 评论 -
【机器学习(3)】多元线性回归代码实现
如何求解A代码实现前期准备#导入相关库import pandas as pdimport numpy as np# 读取样例数据并产看数据维度df = pd.read_excel('sample_data_sets.xlsx')print(df.columns)print(df.shape)–> 输出结果为:Index([‘id’, ‘complete_yea...原创 2020-02-20 22:24:01 · 1584 阅读 · 1 评论 -
【机器学习(2)】线性回归、损失函数、最小二乘法、多元线性回归
线性回归模型基本概念定义:运用一条直线,近似地表示自变量x与因变量y之间的关系公式:Y = aX + b如何判断那条直线可以代表x与y之间的关系如何理解线与散点之间的关系这时候就可以依据误差来进行判定那条直线比较具有代表性了目标能够得到一条直线使得实际y与预测y之间的距离整体最短,转换为数学问题就是:找到一条直线使得全局误差最小(最优化的问题)损失函数根据上面的目...原创 2020-02-20 22:23:27 · 3670 阅读 · 0 评论 -
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估
机器学习是什么数据 ————> > 经验、规律 ————> > 预测、判断(由数据总结出经验和规律并应用于预测和判断)机器学习基本术语数据集特征(自变量) + 标签(因变量)Y:标签(label)也可以叫因变量,希望预测及解释的核心变量X:特征(features)也叫自变量,反映事物或对象的某方面的表现性质样本(sample)...原创 2020-02-20 22:21:31 · 2257 阅读 · 0 评论