
Datawhale
文章平均质量分 82
一只元气满满鸭
这个作者很懒,什么都没留下…
展开
-
集成学习(上)——评估模型的性能并调参
Datawhale 集成学习(上)——评估模型的性能并调参文章目录前言一、使用pipline简化工作流二、使用步骤1.引入库2.读入数据总结前言对前面的调参章节进行补充(前面落下的现在需要补上)一、使用pipline简化工作流通过sklearn中的sklearn.pipline.Pipline()可以引入管道机制,也就是将机器学习中的工作流程串起来,在工作流程中可以将前一个节点处理得到的结果直接转送到下一个节点进行处理。需要注意的是:管道流中的节点都需要实现fit()和tranfo示例:p原创 2021-03-29 21:53:26 · 558 阅读 · 0 评论 -
集成学习(上)——sklearn构建分类项目(1)
Datawhale 集成学习(上)—— sklearn构建分类项目(1)文章目录前言一、使用sklearn中的数据集构建分类项目:二、选择度量模型性能的指标三、logistic regression四、基于概率的分类模型--基于贝叶斯公式的线性判别分析前言主要是通过sklearn进行分类项目的构建,本节主要内容是逻辑回归和基于贝叶斯公式的线性判别分析一、使用sklearn中的数据集构建分类项目:代码如下:from sklearn import datasetsiris = datasets原创 2021-03-27 22:44:14 · 439 阅读 · 0 评论 -
集成学习(上)——模型参数调优
Datawhale 集成学习(上)——模型参数调优文章目录超参数调优超参数调优在刚刚的讨论中,我们似乎对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数 ???? 应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数 ???? ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身原创 2021-03-24 21:52:12 · 347 阅读 · 0 评论 -
集成学习(上)——优化基础模型
Datawhale 集成学习(上)—— 优化基础模型文章目录前言一、训练和测试的均方误差二、偏差-方差权衡1. 训练误差修正2、交叉验证3、特征提取三、正则化1、岭回归(L2正则化)2、Lasso回归(L1正则化)前言本节主要针对的是模型在训练集和测试集上表现差异的问题,建立的机器学习的模型不是为了在已有的数据上表现良好,而是为了在未知的数据上也有出色的表现一、训练和测试的均方误差MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i =原创 2021-03-22 22:05:34 · 386 阅读 · 0 评论 -
集成学习(上)——回归模型
集成学习(上)——回归模型文章目录一、合适特征选择和模型性能度量指标二、模型中的参数估计(1)最小二乘法估计(2)极大似然估计一、合适特征选择和模型性能度量指标(1)合适的特征选择直接使用常用的boston房价数据集:from sklearn import datasetsboston = datasets.load_boston() # 返回一个类似于字典的类X = boston.datay = boston.targetfeatures = boston.feature_na原创 2021-03-18 22:02:43 · 428 阅读 · 0 评论 -
集成学习(上)——机器学习中的三大任务
@[TOC](集成学习(上)——task1 机器学习中的三大任务)前言机器学习的主要的目标就是用数学模型来理解数据,发现数据中的规律,通过发现发现的规律用作数据的分析和预测;根据数据集是否有因变量,机器学习的任务主要是可以分为:有监督学习和无监督学习其中有监督学习主要是分为: 回归和分类一、回归机器学习中主要的库就是sklearn,可以直接用过改库下载数据,并且将数据输入到pandas的DataFrame中,可以对数据进行分析代码如下:from sklearn import data原创 2021-03-15 22:01:41 · 392 阅读 · 0 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task6
DataWhale 零基础入门语义分割-地表建筑物识别-Task6 模型集成文章目录DataWhale 零基础入门语义分割-地表建筑物识别-Task6 模型集成模型集成一、集成学习二、深度学习中集成学习1.Dropout2.TTA(Test Time Augmentation)3.Snapshot总结模型集成通过模型的集成可以提高整个模型的泛化能力,提高预测的精度本章涉及到的知识点主要是包括:集成学习的方法,深度学习中的集成学习一、集成学习在机器学习的方法中,常见的集成学习方法主要有:st原创 2021-03-07 22:09:39 · 460 阅读 · 0 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task5
DataWhale 零基础入门语义分割-地表建筑物识别-Task5文章目录模型训练与验证一、pandas是什么?二、使用步骤1.引入库2.读入数据总结模型训练与验证本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解,在部分小节中将会结合Pytorch 代码进行讲解。一个成熟合格所需要具备的功能是提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤原创 2021-03-04 21:51:53 · 335 阅读 · 1 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task4
文章目录评价函数与损失函数一、TP TN FP FN二、Dice评价标准1、Dice系数2、Dice Loss三、IoU评价指标四、BCE 损失函数五、Focal Loss评价函数与损失函数掌握常见的评价函数和损失函数Dice、IoU、BCE、Focal Loss、Lovász-Softmax;一、TP TN FP FN以二分类问题为例,TP(真正例 true positive) TN(真反例true negative) FP(假正例false positive) FN(假反例false neg原创 2021-03-01 21:58:57 · 238 阅读 · 0 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task3
文章目录语义分割模型发展一、FCN1.FCN主要特点2.反卷积(Deconvolutional)3.跳跃结构二.SegNet三.Unet三.其他语义分割模型发展语义分割网络模型的发展:FCN 、SegNet、Unet、DeepLab、RefineNet、PSPNet、GAN 语义分割。本文主要以FCN 为重点进行分析一、FCNFCN(Fully Convolutional Network) 全卷积网络,和之前常用的分类网络的不同的地方就是里面没有全连接层,也就是对一张图的所有的像素点进行分类为原创 2021-02-26 21:58:32 · 507 阅读 · 0 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task2
DataWhale 零基础入门语义分割-地表建筑物识别-Task2文章目录DataWhale 零基础入门语义分割-地表建筑物识别-Task2数据扩增一、数据扩增方法二、OpenCV 数据扩增1.读取原始数据2.使用OpenCv进行翻转3.对图像进行随机裁剪三、albumentations 数据扩增四、pytorch数据读取1.定义Dataset:2.实例化Dataset对象:数据扩增对语义分割任务中常见的数据扩增方法进行介绍,并使用OpenCV 和albumentations 两个库完成具体的数据原创 2021-02-23 21:06:40 · 479 阅读 · 0 评论 -
DataWhale 零基础入门语义分割-地表建筑物识别-Task1
DataWhale 零基础入门语义分割-地表建筑物识别-Task11. Rle编码理解(1) 示例代码(2)代码分析2 赛题数据读入和可视化(1)赛题数据读入:(2)数据可视化展示:3 任务拓展(1)统计所有图片整图中没有任何建筑物的图片占所有训练集图片的比例(2)统计所有图片中建筑物像素占所有像素的比例和统计所有图片中建筑物区域平均区域大小1. Rle编码理解RLE是一种简单的非破坏性资料压缩法,经常用在在语义分割比赛中对标签进行编码(1) 示例代码import numpy as npimpor原创 2021-02-20 19:18:48 · 383 阅读 · 0 评论