自然语言处理:发展、挑战与应用
一、NLP 的发展历程
1. 20 世纪 90 年代:统计方法崛起
20 世纪 90 年代,随着计算机运行速度的提升,自然语言处理(NLP)从自上而下的方法逐渐转向更具统计性的方法。新方法强调基于语言统计来制定规则,无需语言学家手动创建所有规则,数据驱动的 NLP 成为这一时期的亮点。并且,NLP 算法逐渐从单纯的语言学方法转向基于工程的方法,吸引了众多科学领域的参与。
2. 2000 - 2020 年代:快速增长与广泛应用
在这一时期,随着计算能力的进步,NLP 领域实现了显著增长。现实世界中使用 NLP 的应用数量大幅增加,广泛应用于商业和消费领域,如聊天机器人、网络安全、搜索引擎和大数据分析等。
二、NLP 的主要组成部分及歧义问题
1. NLP 的两大组成部分
NLP 主要由自然语言理解(NLU)和自然语言生成(NLG)两部分组成:
- 自然语言理解(NLU) :通过分析语言的不同方面,将自然语言输入映射为有用的表示。
- 自然语言生成(NLG) :从内部表示生成自然语言的有意义短语和句子。
一般来说,NLU 比 NLG 更具挑战性,主要原因有两点:一是自然语言的形式和结构极为丰富;二是自然语言存在高度歧义性。
2. 自然语言的歧义类型
自然语言存在多种歧义类型:
| 歧义类型 | 描述 | 示例 |
| ---- | ---- | ---- |
| 词汇歧义
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



