自然语言处理:从基础到应用
1. 引言
在日常生活中,我们能够阅读、理解和使用多种语言进行交流,这得益于教育和互联网等资源。而自然语言处理(NLP)这一领域,旨在运用编程语言让计算机理解人类语言。
语言是记录和传播思想的工具,它以多种形式存在,如口语、书面语、数字化的视频、音频和文本等。随着互联网的发展,语言也在不断变化,新词汇不断涌现,不同语言相互混合,不同模态相互交织。
NLP 作为人工智能的一个子领域,有多种不同的名称,如“人类语言技术”强调其技术属性且关注人类因素,“计算语言学”则突出了语言学与计算机科学的协作,这也是 NLP 的核心所在。
2. 语言与语言学
-
语言的本质与多样性
- 语言是生物间交流的方式,动物通过声音、符号等进行沟通,人类则使用更为复杂的语言系统。语言是一套约定俗成的代码,口语的声音和书面语的符号都承载着意义。例如,“hi”的发音和“h”“i”的书写形式在英语文化中用于打招呼,而意大利语的“ciao”有类似含义,但对于不懂该语言的人来说可能难以理解。
- 语言的书写脚本根据对元音的处理方式可分为字母文字(alphabet)、元音附标文字(abugida)和辅音音素文字(abjad)。英语属于字母文字,会明确写出所有辅音和元音;印地语属于元音附标文字,会省略一些元音;阿拉伯语属于辅音音素文字,大部分元音会被省略。此外,不同语言的书写方式还有其他差异,如印度的马拉地语会用横线连接字母,而古吉拉特语则不会。还有一些语言可能没有传统的书写形式,如手语,它通过手势和面部表情传达详细的意义,也可以通过特殊脚本进行
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



