可解释机器学习系列：第三章数据集概览

码农工具百宝箱

于 2024-10-28 21:07:38 发布

阅读量319

点赞数 4

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013818406/article/details/143313658

版权

对书中使用的数据集进行概览。这些数据集将用于展示各种可解释机器学习技术，包括回归、分类和文本分类任务。了解数据集的特征对于理解模型的解释至关重要。

3.1 自行车租赁数据集（回归）

这个数据集包含了华盛顿特区CapitalBikeshare自行车租赁公司的每日自行车租赁数量，以及天气和季节信息。数据由CapitalBikeshare公开提供，Fanaee-T和Gama在2013年添加了天气数据和季节信息。这个数据集的目标是根据天气和日期预测自行车租赁数量。

特征列表

自行车租赁数量（包括临时和注册用户）作为目标变量。
季节（春夏秋冬）。
假日指标。
年份（2011或2012）。
从2011年1月1日起的天数，用于考虑时间趋势。
工作日/周末指标。
天气状况（晴朗、多云、雾等）。
温度（摄氏度）。
相对湿度（百分比）。
风速（公里/小时）。

3.2 YouTube垃圾评论数据集（文本分类）

这个数据集包含了来自YouTube上5个不同视频的1956条评论。这些数据由Alberto, Lochter, 和 Almeida在2015年关于垃圾评论分类的文章中公开。评论被手动标记为垃圾或非垃圾，其中“1”代表垃圾评论，“0”代表合法评论。

3.3 宫颈癌风险因素数据集（分类）

这个数据集包含了预测女性是否会患宫颈癌的指标和风险因素，包括人口统计数据（如年龄）、生活方式和医疗历史。数据可以从UCI机器学习库下载，由Fernandes, Cardoso, 和 Fernandes在2017年描述。

特征列表

年龄。
性伴侣数量。
首次性行为年龄。
怀孕次数。
是否吸烟。
吸烟年数。
是否使用激素避孕药。
使用激素避孕药的年数。
是否使用宫内节育器（IUD）。
使用IUD的年数。
是否曾患有性传播疾病（STD）。
STD诊断次数。
自首次STD诊断以来的时间。
自上次STD诊断以来的时间。
活检结果（健康或癌症）。

3.4 数据集的处理和使用

在书中，我们会使用这些数据集来展示不同的可解释模型和技术。每个数据集都经过了适当的处理，以便于模型训练和解释。例如，对于自行车租赁数据集，我们添加了新特征并对原始特征进行了筛选。

3.5 本章小结

本章对书中使用的数据集进行了概览，这些数据集覆盖了多种类型的机器学习任务。通过这些数据集，我们可以更好地理解如何应用和评估可解释性方法。在下一章中，我们将深入探讨可解释模型，包括线性回归、逻辑回归和决策树等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码农工具百宝箱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。