对书中使用的数据集进行概览。这些数据集将用于展示各种可解释机器学习技术,包括回归、分类和文本分类任务。了解数据集的特征对于理解模型的解释至关重要。
3.1 自行车租赁数据集(回归)
这个数据集包含了华盛顿特区CapitalBikeshare自行车租赁公司的每日自行车租赁数量,以及天气和季节信息。数据由CapitalBikeshare公开提供,Fanaee-T和Gama在2013年添加了天气数据和季节信息。这个数据集的目标是根据天气和日期预测自行车租赁数量。
特征列表
- 自行车租赁数量(包括临时和注册用户)作为目标变量。
- 季节(春夏秋冬)。
- 假日指标。
- 年份(2011或2012)。
- 从2011年1月1日起的天数,用于考虑时间趋势。
- 工作日/周末指标。
- 天气状况(晴朗、多云、雾等)。
- 温度(摄氏度)。
- 相对湿度(百分比)。
- 风速(公里/小时)。
3.2 YouTube垃圾评论数据集(文本分类)
这个数据集包含了来自YouTube上5个不同视频的1956条评论。这些数据由Alberto, Lochter, 和 Almeida在2015年关于垃圾评论分类的文章中公开。评论被手动标记为垃圾或非垃圾,其中“1”代表垃圾评论,“0”代表合法评论。
3.3 宫颈癌风险因素数据集(分类)
这个数据集包含了预测女性是否会患宫颈癌的指标和风险因素,包括人口统计数据(如年龄)、生活方式和医疗历史。数据可以从UCI机器学习库下载,由Fernandes, Cardoso, 和 Fernandes在2017年描述。
特征列表
- 年龄。
- 性伴侣数量。
- 首次性行为年龄。
- 怀孕次数。
- 是否吸烟。
- 吸烟年数。
- 是否使用激素避孕药。
- 使用激素避孕药的年数。
- 是否使用宫内节育器(IUD)。
- 使用IUD的年数。
- 是否曾患有性传播疾病(STD)。
- STD诊断次数。
- 自首次STD诊断以来的时间。
- 自上次STD诊断以来的时间。
- 活检结果(健康或癌症)。
3.4 数据集的处理和使用
在书中,我们会使用这些数据集来展示不同的可解释模型和技术。每个数据集都经过了适当的处理,以便于模型训练和解释。例如,对于自行车租赁数据集,我们添加了新特征并对原始特征进行了筛选。
3.5 本章小结
本章对书中使用的数据集进行了概览,这些数据集覆盖了多种类型的机器学习任务。通过这些数据集,我们可以更好地理解如何应用和评估可解释性方法。在下一章中,我们将深入探讨可解释模型,包括线性回归、逻辑回归和决策树等。