- 一些网站会直接提供实体词典,如搜狗词典;
- 可以从结构化/半结构化数据中挖掘实体词典,例如百度百科、医学网站的Link等等;
- 从文本中挖掘。用户可能提供一些非标准化表达,这时候就需要用到新词挖掘技术,可以参考美团搜索的新词挖掘技术:
获取实体词典后,要根据任务特点和数据特点选择实体词典的使用方式。
有时候需要对实体词典做质量评估和筛选、分类,例如把歧义性高的实体组成一个词典,歧义词低的实体组成一个词典,新词组成一个词典等等。
词典的质量评估,包括词典大小、词典准确度、覆盖度、实体歧义性、实体频率...完整全面地了解词典,才能更高地选择使用方式。
关于使用方式,可以结合到NER模型里面使用,也可以单独匹配,也可以匹配后再与模型结合。
关于结合到NER模型的方式,可以调研已有的论文,大多都是构建词典特征,然后作为bilstm等编码器的输入。构建词典特征的方式也要根据任务和数据来设计。
关于匹配的方式,可以直接匹配,也可以先分词再匹配,例如对文本分词后匹配,或者对词典的item也分词,然后再匹配。
上述使用方式都对应解决不同的问题。