自然语言处理基础:从语言本质到实际应用
1. 自然语言概述
文本数据属于非结构化数据,不过它通常遵循特定的语法和语义规则,归属于某一特定语言。无论是简单的单词、句子,还是一篇文档,所有文本数据都与某种自然语言相关。
1.1 自然语言的定义
简单来说,自然语言是人类通过自然的使用和交流而发展演变出来的语言,与计算机编程语言这种人工构造的语言不同。像英语、日语、梵语等各种人类语言都可称为自然语言。自然语言的交流方式多种多样,包括口语、书面语,甚至手语。
1.2 语言哲学
语言哲学主要探讨以下四个问题:
- 语言意义的本质 :关注语言的语义以及意义本身的性质。语言哲学家或语言学家试图弄清楚一个词或句子的真正含义是如何产生的,以及不同单词如何成为同义词并形成关联。语言的结构和语法为语义奠定了基础,即具有各自意义的单词如何组合成有意义的句子。句法、语义、语法和解析树等是解决这些问题的方法。从语言学角度看,意义可以在人与人之间(发送者和接收者)表达;从非语言学角度看,肢体语言、过往经历和心理效应等因素也会影响语言的意义,每个人会根据这些因素以自己的方式感知或推断意义。
- 语言的使用 :更侧重于语言在各种场景和人际交流中的应用。这包括分析口语以及说话时语言的使用情况,如说话者的意图、语气、内容和表达信息时的行为,在语言学中这通常被称为“言语行为”。更高级的概念如语言创造和人类认知活动(如语言习得),即研究语言的学习和使用,也是重要的研究方向。
- 语言认知 :专门研究人类大脑的认知功能如何负责理解和解释
超级会员免费看
订阅专栏 解锁全文
2160

被折叠的 条评论
为什么被折叠?



