可解释机器学习系列:第三章 数据集概览

对书中使用的数据集进行概览。这些数据集将用于展示各种可解释机器学习技术,包括回归、分类和文本分类任务。了解数据集的特征对于理解模型的解释至关重要。

3.1 自行车租赁数据集(回归)

这个数据集包含了华盛顿特区CapitalBikeshare自行车租赁公司的每日自行车租赁数量,以及天气和季节信息。数据由CapitalBikeshare公开提供,Fanaee-T和Gama在2013年添加了天气数据和季节信息。这个数据集的目标是根据天气和日期预测自行车租赁数量。

特征列表

  • 自行车租赁数量(包括临时和注册用户)作为目标变量。
  • 季节(春夏秋冬)。
  • 假日指标。
  • 年份(2011或2012)。
  • 从2011年1月1日起的天数,用于考虑时间趋势。
  • 工作日/周末指标。
  • 天气状况(晴朗、多云、雾等)。
  • 温度(摄氏度)。
  • 相对湿度(百分比)。
  • 风速(公里/小时)。

3.2 YouTube垃圾评论数据集(文本分类)

这个数据集包含了来自YouTube上5个不同视频的1956条评论。这些数据由Alberto, Lochter, 和 Almeida在2015年关于垃圾评论分类的文章中公开。评论被手动标记为垃圾或非垃圾,其中“1”代表垃圾评论,“0”代表合法评论。

3.3 宫颈癌风险因素数据集(分类)

这个数据集包含了预测女性是否会患宫颈癌的指标和风险因素,包括人口统计数据(如年龄)、生活方式和医疗历史。数据可以从UCI机器学习库下载,由Fernandes, Cardoso, 和 Fernandes在2017年描述。

特征列表

  • 年龄。
  • 性伴侣数量。
  • 首次性行为年龄。
  • 怀孕次数。
  • 是否吸烟。
  • 吸烟年数。
  • 是否使用激素避孕药。
  • 使用激素避孕药的年数。
  • 是否使用宫内节育器(IUD)。
  • 使用IUD的年数。
  • 是否曾患有性传播疾病(STD)。
  • STD诊断次数。
  • 自首次STD诊断以来的时间。
  • 自上次STD诊断以来的时间。
  • 活检结果(健康或癌症)。

3.4 数据集的处理和使用

在书中,我们会使用这些数据集来展示不同的可解释模型和技术。每个数据集都经过了适当的处理,以便于模型训练和解释。例如,对于自行车租赁数据集,我们添加了新特征并对原始特征进行了筛选。

3.5 本章小结

本章对书中使用的数据集进行了概览,这些数据集覆盖了多种类型的机器学习任务。通过这些数据集,我们可以更好地理解如何应用和评估可解释性方法。在下一章中,我们将深入探讨可解释模型,包括线性回归、逻辑回归和决策树等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农工具百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值