自然语言处理(NLP)即让计算机理解人类日常语言
1.同义词词典
以人工方式进行定义意思相近的单词,有上位-下位,整体-部分关系。利用这些“单词网络”形式教会计算机单词之间的相关性,将单词含义间接教给计算机。
1.1WordNet
最著名同义词词典,一个基于人工定义的单词网络,使用单词网络可以计算单词之间的相似度,获得单词的近义词。
存在问题:难以顺应时代变化,词意会变;人工制作词典成本高;无法表示单词的微妙差异。
2.基于计数的方法
2.1 语料库预处理
语料库:大量文本数据
基于计数方法的目的:从这些富有实践知识的语料库中,自动且高效地提取本质
例子 1
结论:lower()方法将所有字母转化为小写,replace()方法将.换成空格.(方便后续的分隔操作),split()方法将空格作为分隔符切分句子。
对上述单词标上ID,以便使用单词ID列表