11-411/611NLP Lecture 4.Words and Morphology_words and morphemes-优快云博客

本文链接：https://blog.youkuaiyun.com/ChanceYing/article/details/102749011

Morphology(形态学)

words are not atoms

单词并不是语言的最小单位，它们由更深的内部结构语素(Morphems)构成。

单词就好比化学中的分子虽然是一个整体，而但可以将其拆分为原子，而语素就是够成它的原子。
[example]

每个单词由若干语素毗邻组成

Umlaut(元音变音)
- foot:feet
- tooth:teeth
Ablaut(元音变换)
- sing:sang:sung
Root-and-pattern morphology(词根与模式语素) or templatic morphology(模板语素)
- 常见于Arabic(阿拉伯),Hebrew(希伯来),other Afroasiatic(亚非语系)语言中
- 辅音构成词根，再推入元音
Infixation(中缀)
- Gr-um-adwet

语素构成单词的方法主要为两类：inflrction(屈折)、derivation(派生)。

将与上下文相关的信息添加到单词中。这类词之间一般语义相同。
例如上下文中名词的数量、动词的第三人称单数形式等,在句子中表示主谓宾位置的变化等。
[example]

将单词与词缀组合构成新词。这类词之间一般语义不同。
[example]

屈折形态一般与其词根有关
相同的派生词素根据它所依附的词根可能具有不同的含义与功能

Formal irregularity(形式不规则)
- walk:walked:walked
- sing:sang:sung
Semantic irregularity/unpredictability(语义不规则/不可测)
- a king-ly old man(使用正确)
- a slow-ly old man(使用错误)

正则语言(regular language)：能被FSA识别的语言。大多数自然语言都能被表示为正则语言。
形式语言(formal lauguage)：一种能被自动机生成或识别的不同于自然语言的语言

Q：a finite set of states(有穷状态集)
$q_{0}$ ∈Q：a special start state(特殊的开始状态)
F $\subseteq$ Q：a set of final states(结束状态集，是Q的子集)
$\Sigma$ ：a finite alphabet(有穷字母集)
Trancitions(过渡)：
Encodes a set of strings that can be recongnized by following paths from $q_{0}$ to some state in F.

[example]
关于羊的语言‘baaaa!’的FSA识别过程 baa!
它可以识别

baa!
baaa!
baaaa!
...

对应的正则表达式为’baa+!’

[example]
FSA for English Derivational Morphology
FSAforEDM

在某些编程语言(如Perl、Python)中出现的正则表达式的功能经常超越了真正的正则表达式

输入：单词
输出：由其他语素表达的词干、特征
[example]

形态分析方法