大家好,在人工智能出现之前,机器智能处理结构化的数据,例如 Excel 里的数据。但是网络中大部分的数据都是非结构化的,例如文章、图片、音频、视频等。在非结构数据中,文本的数量是最多的,他虽然没有图片和视频占用的空间大,但是他的信息量是最大的。
为了能够分析和利用这些文本信息,就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用,本文将介绍自然语言处理NLP的关键知识点。
1.自然语言处理NLP
每种动物都有自己的语言,机器亦然。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。人类通过语言来交流,狗通过叫声来交流,机器也有自己的交流方式,那就是数字信息。
不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。
而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言,NLP 就是人类和机器之间沟通的桥梁。
2.NLP的难点
NLP的难点主要体现在以下5个方面:
-
语言的多样性:语言是没有规律的,或者说规律是错综复杂的。
-
语言的歧义性:语言是可以自由组合的,可以组合复杂的语言表达。