序列分类中的广义球学习与实验
1 广义球学习
1.1 最小泛化的非唯一性
与自动机的泛化不同,字符串球的最小泛化不再是唯一的。例如,设 $E = [a, b, ab]$,$h = B1(a)$ 和 $h′ = B1(b)$,这两个假设都包含了示例($h ⪰E$ 且 $h′ ⪰E$),但 $h′ ̸⪰h$ 且 $h ̸⪰h′$。在 $R^2$ 中,这种性质很明显,如图 1 所示,三个点可以被多个相互不可比较的圆盘假设所包含。
虽然可能存在包含所有示例的最小球,但没有理由认为这个最小球就是最小泛化。而且,找到一组字符串的中心字符串是 NP 难问题。
1.2 单调泛化算子
为了解决这些问题,提出了增量算法 5(称为 g - balls)作为字符串球的泛化算子。
算法 5. 广义球的通用算法 g - balls
要求: h = Br(o) 一个球,e 一个示例。
确保: g ∈H 是包含 e 的 h 的最小泛化(g ⪰h 且 g ⪰e)。
1: p = o ∗−→e /* 一条最短路径 */
2: 设 u 是路径 p 上的一个字符串 /* p = o x−→u y−→e, x + y = d(o, e) */
3: x = d(o, u)
4: y = d(u, e)
5: k = max(x + r, y)
6: return Bk(u)
该算法需要一种在路径 $p$ 上选择新中心 $u$ 的方法,但无论如何选择,都能保持单调性,即新球包含新示例和先前的假设。不过,该算法的缺点是新假设并不总是最小泛化,但字符串球的
超级会员免费看
订阅专栏 解锁全文
44

被折叠的 条评论
为什么被折叠?



