信息提取(Information Extraction) 把文本里包含的信息进行结构化处理,变成表格一样的组织形式。 本文的信息抽取主要是【关键词、主题、词组】抽取。 文章目录 1、纯规则 1.1、词典匹配 1.2、正则表达式+预设权重 1.3、预设多层权重(有向无环图) 2、词典匹配+词向量 2.1、匹配范围扩大 2.2、实体消歧 3、词典匹配+监督学习 4、监督学习多标签抽取 5、句法分析 6、词组合抽取 1、纯规则 1.1、词典匹配 from jieba import cut lexicon = { '剑圣', '大法师', '守望者'