Datawhale《动手学数据分析》Task05：模型建立和评估1

最新推荐文章于 2025-12-30 14:38:32 发布

原创

最新推荐文章于 2025-12-30 14:38:32 发布 · 767 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #机器学习 #sklearn

第三章模型搭建和评估

完成泰坦尼克号存活预测

3.1建模

任务一：切割训练集和测试集

这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

任务提示1

切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

要从clear_data.csv和train.csv中提取train_test_split()所需的参数

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FCCYY

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

收藏一些好的文章博客（持续更新）

weixin_43229159的博客

06-06

148

博客文章汇总

不积跬步无以至千里; 不积小流无以成江海

04-07

1677

概述本文对本博客所有的文章进行汇总Spring Boot 用法的博客总结Spring SpEL系列一基础用法 Spring SpEL系列二 @Value,xml, Java代码使用SpEL Spring Boot系列一 spring boot 集成 slf4j 和 logback Spring Boot系列二 Spring @Async异步线程池用法总结 Spring Boot系列三 Sp

参与评论您还未登录，请先登录后发表或查看评论

Python训练营打卡Day10(2025.4.29)

2301_80505456的博客

04-29

299

不大，仔细看看示例代码，好好理解下这几个评估指标。接下来用多种不同模型评估。

如何写好一篇博客（文章）

HKD的博客

08-25

2674

前言随笔：作者：HKD 在优快云写博客已经快一年了，第一篇博客是在2020年10月30日发表的，当初写博客的目的很纯粹，因为当时准备秋招，刷笔试题算法题，就想做做总结，进行归纳，于是乎就有了我的第一篇博客：【算法-Java实现】盛最多水的容器（下图）。虽然在网上已经有了很多同样的此类文章，但是毕竟代码是我一行一行敲出来的，思路是我一字一字写出来的。有了很多前辈的引路，我们才会避免走弯路。再次推荐：左神的《程序员代码面试指南》！非常经典的一本算法书，里面都是高频算法面试题。好了，回归正题，本文是个人写

写博客的目的

笨鸟先飞

02-28

534

我写博客的主要目的是 1、给自己制定一些计划 2、学习的课后巩固可能会让你们失望了:我写博客首先服务自己，再者是其他人。因为我还没有到达编程大师那种程度，我只是个java小白而已。就不误人子弟了。 ...

[DataWhale]动手学数据分析Task05：模型建立及评估

MaxQuYY的博客

07-22

338

主要学习Python数据可视化库Matplotlib；数据可视化可以更好的看到每一个关键步骤的结果如何，可以用来优化方案，是一个很有用的技巧。 # 加载所需的库 # 如果出现 ModuleNotFoundError: No module named 'xxxx' # 你只需要在终端/cmd下 pip install xxxx 即可 %matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as p

【datawhale组队学习】动手学Agent应用开发TASK02

m0_52024881的博客

09-18

698

b.第二阶段:产品研发阶段，把Agent生成答案，与专家或客户持续确认，不断调整数据集，也就是不断调整产品功能。1.2024年7月，除了直接访问与google之外，Reddit，qita等开发者社区有明显增长2.2024年8月，X，youtube，baidu，csdn等翻倍、几倍增长。技术爱好者常陷入“产品误区”，过度追求技术极致，如纠结微调、强化模型，而忽视用户需求，因此需跳出技术怪圈，以用户为中心。在构建好Agent后，我们把Agent生成答案，与专家（客户）持续确认，这也是AI产品中的第二次评估。

Datawhale AI夏令营第五期魔搭-CV竞赛方向Task1笔记--初识yolo模型

2401_82557688的博客

08-22

1083

本赛题最终目标是开发一套智能识别系统，能够自动检测和分类城市管理中的违规行为。该系统应利用先进的图像处理和计算机视觉技术，通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。本质上是属于CV中的目标检测题型.

Datawhale组队学习 - 202505 - PyPOTS - Task01时序数据与PyPOTS

raulyy7777的博客

05-13

826

Datawhale是一个专注于AI与数据科学的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员Datawhale 组队学习PyPOTS组队学习教程PyPOTS 是一个专为处理部分观测时间序列（Partially-Observed Time Series, 简称 POTS）而设计的开源 Python 工具箱。初步了解时间序列数据和PyPOTS。

vue开发环境搭建（WebStorm）

热门推荐

Nero__A的博客

03-15

8万+

一、安装Node.js，搭建Vue环境 1、访问Node.js官网（https://nodejs.org/en/download/）进行安装包下载。 2、下载成功之后运行安装程序，进行安装。如果是用安装程序进行安装，在安装过程中会自动进行Nodejs环境变量的配置，如果是通过其他方式进行安装，可能需要手动配置环境变量。完成安装后，可以打开命令行，直接使用

转载博客园文章到自己博客

Mojito Blogs

06-05

986

微信文章和博客文章阅读情况的一些对比

congbao6525的博客

03-17

449

晚上和同事吃完饭，然后想今天还是早点回家吧，每天八点下班也不是回事儿，然后就比平常提前了半个小时到家，但是这半个多小时带给我的是一些额外的收获。回到家之后，平常女儿都会急匆匆的从房间的某个角落闪出来，如果看到我，...

Android博客文章整理

473687880

03-29

302

经过一年的努力，整理了博客上所有的Android文章，一共划分为三大篇，十六个章节，820页，系统地分析了Android系统的源代码，从Linux内核层、HAL层、运行时库层到应用程序框架层。整理期间困难重重，多次想要放弃，但是看到在四个多月不更新文章的情况下，博客访问量仍节节攀升，从评论中感受到了网友们的热情支持，受到了极大的鼓舞，最终坚持了下来。现在书本的内容已整理好，开始出售，欢迎大家...

sklearn的系统学习——随机森林分类器与随机森林回归器（含有python完整代码及案例）

weixin_44904136的博客

08-07

6017

在前面的内容中，已经对决策树解决分类回归问题分别做了阐述，今天走进随机森林的世界。什么是森林呢，对，好多树在一起我们就叫它森林，为什么是随机呢，因为这片森林可能不一样，这就涉及到参数的设定了（就像之前决策树的参数一样）。名字的意义明白了，那这最终的结果是怎么得出来的呢？其实很简单，我们知道一棵决策树会给出一个结果，多棵树就会给出多个结果，最后”投票“表决，得票高的就是最终随机森林给出的结果喽。（当然，这里的解释较为简单，想知道具体原理可以阅读《数据挖掘导论》和西瓜书。）...

随机森林划分训练集与测试集（随机划分、自定义划分）-Python实现

kci的博客

06-06

6162

本部分是根据需求自定义人为划分训练集和测试集，随机划分样本可见上一篇博客。如有错误之处，欢迎批评指正~ 因为是人为规定哪些样本是训练集，哪些样本是测试集，因此训练集和测试集不是随机的，是我们已知的。因此我将训练集和测试集分别放置在两个CSV文档中。下图是训练集的部分原始数据。第一列是图像编号，中间列是图像特征，最后一列是图像的实际分类结果。（80张图像）下图是测试集的部分原始数据：（20张图像）实际运行过程中可以提前将number列也就是图像编号列给删去，这里为了方便大家理解，就不删除啦~~ 代

基于机器学习的电视剧类型点击量数据分析研究

最新发布

xinwr

12-30

470

电视剧类型的划分是进行点击量数据分析的基础，对于理解观众偏好和预测点击量具有重要意义。以下是对电视剧类型划分的详细阐述：一、类型划分标准电视剧类型的划分可以从多个维度进行，以下列举几种常见的划分标准：按题材划分古装剧：以古代历史、宫廷、武侠等题材为主。现代剧：以现代都市生活、职场、家庭等题材为主。科幻剧：以科幻、未来世界、太空探险等题材为主。悬疑剧：以悬疑、犯罪、探案等题材为主。喜剧剧：以幽默、搞笑、轻松等题材为主。按风格划分现实主义：以真实反映社会生活、人性为主题的剧集。

数据可视化在交通管理中的应用

xinwr

12-30

696

数据可视化是一种将复杂的数据转换为图形、图像或其他视觉表现形式的技术，旨在帮助人们更直观、快速地理解和分析数据。概念要素详细内容定义数据可视化是将数据转换为图形或图像的过程，通过视觉元素（如形状、颜色、大小等）来传达数据中的信息。目的1. 帮助用户发现数据中的模式、趋势和关联性。2. 提高数据分析和决策制定的效率。3. 增强数据报告和传达的可理解性。过程1. 数据准备：清洗、转换和整合数据。2. 设计可视化：选择合适的图表类型和视觉元素。3. 可视化展示：创建图表、图形或交互式界面。

Python中的Pandas：数据分析的利器

weixin_40266856的博客

12-28

4210

Pandas是基于 NumPy 构建的开源 Python 数据分析库，由 Wes McKinney 于 2008 年开发，旨在为数据科学家提供一种高效、灵活且易于使用的工具来处理结构化数据。其名称“Pandas”源自"Panel Data"（面板数据）和的缩写。Series：一维带标签的数组，用于表示单列数据。DataFrame：二维表格型数据结构，类似于 Excel 表格或 SQL 表，是 Pandas 最常用的数据对象。

眼动研究测量指标及数据分析综述

Riley3618的博客

12-29

1459

眼动追踪技术通过记录眼球运动揭示人类认知与行为模式。本文系统介绍了眼动研究原理、方法与应用：1）技术原理：基于瞳孔-角膜反射法，利用红外光源和高速摄像头捕捉眼球运动；2）研究方法：涵盖数据采集（静态/动态环境）、分析指标（注视点、眼跳等）及可视化工具（热图、扫描路径）；3）应用领域：广泛应用于心理学研究（认知过程）、市场营销（消费者注意力）、医疗诊断（自闭症筛查）及用户体验优化。眼动仪采样率选择需根据研究需求（微眼跳研究需≥600Hz），不同设备（桌面式/头戴式）适用于不同场景。该技术为多学科研究提供了客观

Datawhale AI夏令营第四期：魔搭大模型应用开发注释版BaseLine

文件中提供的执行代码 `streamlit run AICamp_yuan_baseline/Task\ 1：零基础玩转源大模型/BaseLine_web_demo_2b.py --server.address ***.*.*.* --server.port 6006` 是一个命令行指令，用于运行一个基于Streamlit...

Datawhale《动手学数据分析》Task05：模型建立和评估1

第三章 模型搭建和评估

第三章模型搭建和评估