形式化可解释人工智能与基于自动机学习的深度强化学习代理差分安全测试
皮马印第安人糖尿病数据集实验
在第二组实验中,研究人员针对皮马印第安人糖尿病数据集计算了模仿程序。该数据集每个数据点由一个 8 维特征向量构成,代表医疗数据,输出为二元诊断结果(是否患有糖尿病),整个数据集包含 768 个数据点。模型 f 采用了一个简单的前馈神经网络架构,包含三个具有 ReLU 激活函数的密集层,最后是一个 sigmoid 层,共有 722 个可训练参数,在测试集上的准确率约为 78%,接近该数据集的最优值。
为了合成模仿程序,使用了在 4.2 节中描述的语法 Gtabular,并进行了四组不同的特定特征常量实验:
- 四分位数 :对于每个特征,使用三个四分位数(Q1、Q2、Q3)作为特征常量。
- 六分位数 :对于每个特征,使用五个六分位数作为特征常量。
- 八分位数 :对于每个特征,使用七个八分位数作为特征常量。
- 决策树引导语法 :使用从训练好的决策树中获得的常量作为第四种语法的特定特征常量。具体做法是在数据集的测试部分训练决策树,并将树的分割值作为特定特征常量。
最后,作为基线比较,使用 scikit-learn 在与模仿程序相同的示例集 Pts 上训练决策树,并研究它们作为替代模型在运行时间、可解释性以及全局和局部准确性方面的特性。
实验结果如下:
- 合成时间 :图 5 展示了四种语法和决策树在不同数量数据点下计算模仿程序的合
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



