3、实验数据库:迈向改进的实验方法论

实验数据库:迈向改进的实验方法论

1. 实验流程

为了正确解读并重复实验结果,我们需要精确描述算法的运行方式(例如在何种机器上运行)以及评估方法。以下是具体说明:
- 交叉验证流程 :若采用交叉验证来评估算法在未知数据上的预测性能,需存储生成精确折数的种子。同时,要明确计算评估指标(如误差、准确率等)所使用的函数。为提高实验的可复用性,建议计算多种常用指标,或存储可推导这些指标的信息。对于分类器而言,需存储完整的列联表,即对于每对类别 (i, j),记录将类别 i 预测为类别 j 的案例数量。
- 模型信息存储 :实验的另一个重要产出是算法生成的模型。我们至少要存储模型的特定属性,如学习模型的时间、模型大小以及特定于模型的属性(如树的深度),以便进行进一步分析。若存储空间允许,还可存储模型的完整表示,用于后续可视化。对于预测模型,存储数据集中每个示例的单个预测概率也很有用,这样无需重新运行实验即可添加和计算更多评估标准。

2. 数据库填充

除了以结构化方式存储实验,还需选择合适的实验。为了深入了解机器学习算法在不同条件下的行为,我们需要尽可能多样化的实验。具体步骤如下:

2.1 算法选择

从大量可用算法中挑选感兴趣的算法,并为每个不同参数指定概率分布,以生成相应的值。在最简单的情况下,这可以是一个合理值的均匀采样列表。

2.2 数据集覆盖

覆盖数据集空间较为困难,可采取以下方法:
- 真实世界数据集 :从大量真实世界数据集中选择,例如 UCI 存储

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值