23、lazyCoP:惰性参数调制与神经引导搜索的结合

lazyCoP:惰性参数调制与神经引导搜索的结合

1. 引言

大多数自动定理证明器采用启发式搜索,其形式多样,简单的如迭代加深以实现完备性,复杂的有手工设计的方案,甚至还有以某种方式学习得到的启发式。启发式对系统性能至关重要,优秀的启发式能使证明搜索达到线性时间,而糟糕的启发式会大幅增加搜索时间。

过去,这些启发式例程多为手工设计,比如Vampire系统中使用的年龄/权重方案。近年来,从先前的证明尝试中学习良好的启发式变得更受欢迎,机器学习技术虽能近似复杂函数,但会带来计算成本。这可能导致一种不幸的结果:在测试中看似有前景的学习启发式,在实际系统中使用时,由于推理吞吐量降低,反而会降低性能。而且,即使启发式既快速又准确,也不清楚如何将其预测有效地融入现有目标系统。

本文介绍了lazyCoP系统,它是一个用于一阶逻辑带等式的自动定理证明器,属于连接表列家族。该系统使用从先前证明中端到端学习的策略,通过异步评估策略网络,消除了学习指导对推理率的影响。在相同条件下,使用最终学习策略增强的系统在数学语料库中寻找证明的成功率从64%提高到了70%。

2. 相关工作

rlCoP系统是本工作的灵感来源,它是一个连接表列系统,由蒙特卡罗树搜索(MCTS)引导,使用梯度提升树从手工设计的特征中学习策略和价值指导。从先前的证明或失败中学习是机器学习在定理证明中许多不同应用的常见方法。

连接表列和经典一阶逻辑是其他内部指导实验的热门场景,此外,一阶饱和系统、SAT和QBF求解器以及高阶逻辑系统等也有内部指导的研究。然而,具有学习内部指导的系统普遍存在性能问题,如rlCoP因性能原因排除了某些学习模型,Loos等人报告了引导饱和式系统E的主

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值