人类语言复杂性
自然语言对于人类发展进程是至关重要的,可以说如果没有自然语言就不会有人类的文明,它也是人类独有的能力。想象一下,如果没有自然语言我们该如何进行思想交流,该如何进行人与人之间的协作?。
人类的自然语言发展到如今已经是高度成熟了,同时这也是一个相当复杂的系统,从字到单词到短语再到句子和段落,加上各种不同的表达形式和语境,真真算得上是“皇冠上的明珠”。
如果要去形容自然语言有多复杂好像也很难说清楚,那我们就以数学组合的角度来看自然语言的复杂度,当然用该例子也并不完全正确,重点是体会下自然语言爆炸式的复杂度。经典的用小麦来填国际象棋棋盘格子的故事大家都听过,第一格放一粒,第二格放两粒,第三格放四粒,第四格放八粒,以此类推。每一个格子放的麦粒都是前面的两倍,一直放到64格。然而这些麦子总数量需要全世界生产两千年,这就是爆炸式的组合空间。可以想象一下,假如中文汉字一共有10000个,一句话长度为20字,那么这样的组合空间会是多大呢?10000的20次方,这数字已经大到在整个宇宙中都无法形容。

语言的表示
我们知道机器处理的是数字信号,那么在机器里面所有的信息都是数字化的,所以任何信息如果要被机器处理就需要先被编码成01二进制信号。比如“你好”这个单词使用UTF-8进行编码后的二进制为“111001001011110110100000 111001011010010110111101”,如果机器不对“你好”进行编码则无法处理,而对