实验数据库与快速容斥算法:数据挖掘新方法
实验数据库方法概述
实验数据库(ExpDB)是一种全新的实验研究方法,旨在解决传统实验研究中数据复用性、结果可重复性和泛化性等方面的问题。传统研究倾向于提供数据集本身和系统实现,但实验和结论多记录在论文中,实验设置细节可能不足,难以精确重现实验。而ExpDB方法通过发布实验数据库,保留详细的实验日志,方便其他研究人员细化前人的结论。
ExpDB方法的优势
- 效率 :同一组算法在数据集上的运行结果可用于多个不同目标的实验,避免重复实验。
- 泛化性 :通过随机化所有非研究参数,能明确实验结果的泛化程度,从覆盖整个P×D空间的较大样本中获取结果,而非小部分空间的小样本。
- 分析深度 :便于研究两个或多个参数对性能指标的综合影响,以及算法参数、数据集属性和性能标准之间的高阶交互。
- 真正的数据挖掘能力 :使用合适的查询语言,可以提出如“哪些算法参数对算法准确性影响最大”等问题。
- 可复用性 :发布实验数据库确保实验详细日志可用,便于其他研究人员重现实验,并研究与原作者不同的假设。
实验表的大小
假设每个绘制点至少是e个示例的平均值,且每个参数或数据集特征的取值不超过v个(连续变量离散化),合理取值为e = 30,v = 10。那么测量单个参数对单个性能指标的影响需要ve = 300次实验。测量保持单个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



