自然语言处理中的有限状态惰性操作与非确定性有限自动机状态复杂度
有限状态转换器的基本操作
在自然语言处理(NLP)中,有限状态转换器(FST)是非常重要的工具,其常见的基本操作包括Kleene星号和组合操作。
- Kleene星号 :给定一个FST (T = (\Sigma, \Omega, Q, {i}, F, E)) 来编码关系 (R),关系 (R^{ }=\bigcup_{k\in N} R^{k}) 可由FST (T^{ }=\bigcup_{k\in N} T^{k}) 识别。其中 (T^{*}= (\Omega, \Sigma, Q \cup{i_1}, {i_1}, {i}, E_1)) ,且 (E_1 = E \cup{(i_1, \epsilon, \epsilon, i)} \cup{(f, \epsilon, \epsilon, i) | f \in F})。这一操作在处理字符串序列时非常有用,例如在对文本中的重复模式进行建模时,Kleene星号可以表示零次或多次重复的情况。
- 组合操作 :假设有两个FST (T_1 = (\Sigma, \Omega, Q_1, {i_1}, F_1, E_1)) 和 (T_2 = (\Omega, \Gamma, Q_2, {i_2}, F_2, E_2)) 分别编码关系 (R_1) 和 (R_2),那么关系 (R_3 = R_1 \circ R_2) 由FST (T_3 = T_1 \circ T_2) 编码。这里 (T_3 = (\Sigma, \Gamma, Q_1 \times Q_2, {i_1}, {
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



