泽塔分布与迁移学习问题
1. 程序分布的近似
索洛莫诺夫的通用分布依赖于程序的概率分布。一种自然的模型是将程序视为由公平硬币生成的比特串。索洛莫诺夫将程序 $\pi \in {0, 1}^+$ 的概率定义为:
$P(\pi) = 2^{-|\pi|}$
其中 $|\pi|$ 是程序的比特长度。然而,如果将所有比特串 $\pi \in {0, 1}^*$ 都视为有效程序,这样定义的所有程序的总概率将会发散。构建概率分布需要收敛的总和,扩展的克拉夫特不等式表明,对于无前缀的无限程序集,总概率小于 1。
设 $M$ 是一台运行无前缀编码程序(如 LISP)的参考机器。比特串 $x \in {0, 1}^ $ 由 $M$ 的随机程序生成的算法概率为:
$P_M(x) = \sum_{M(\pi)=x^ } P(\pi)$
这符合科尔莫戈罗夫公理,$P_M$ 也被称为通用先验,因为它可以在贝叶斯推理中用作先验,任何数据都可以编码为比特串。
1.1 程序的泽塔分布
为了近似 $M$ 的程序分布,我们提出了泽塔分布。即使经过归一化,之前的分布($P(\pi) = 2^{-|\pi|}$)仍然是一种近似,因为它包含许多语义错误和不生成任何字符串的程序。现实的程序分布需要详细的概率模型,但通用模型虽然是近似的,仍为索洛莫诺夫通用归纳方法的极限提供了良好的边界。因此,也可以考虑其他通用近似。
此外,泽塔函数具有通用性,这促使我们将算法信息论与泽塔分布联系起来。
考虑一个程序比特串 $\pi = b_1b_2b_3 \cdots b_k$,定义 $\varphi : {0, 1
超级会员免费看
订阅专栏 解锁全文
2002

被折叠的 条评论
为什么被折叠?



