2021-11-7
一、wordnet的文件格式
- wordnet包括两种基本数据文件:index.pos 和data.pos,其中pos包括noun、verb、adj和adv,分别对应名词、动词、形容词和副词。
WordNet中所有词的索引文件,通过Index.pos,可以直接找到每个词汇对应的synset_offsets,从而快速地得到待搜索词的语义解释。 - Index.pos文件格式
每个index文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
lemma pos synset_cnt p_cnt [ptr_symbol…] sense_cnt tagsense_cnt
synset_offset [synset_offset…]
lemma处于语义树底层的单词或短语。其中短语各单词之间用“_”进行分割。
- pos 词性,n名词、v动词、a形容词、r副词
synset_cnt
lemma所属同义词集合(synsets)的数量。即这个词在WordNet中的义项数目
。
p_cnt
lemma在所有所属同义词集合(synset)中与其他同义词集合发生关联的数量。
ptr_symbol
emma与其他同义词集合发生语义关联的类别列表,如果lemma与所有其他同义词集合都没有语义关联,则此部分为空,且p_cnt为0。
sense_cnt
和上面的synset_cnt一样,这里的重复只是为了兼容性考虑
tagsense_cnt
lemma的此义项在本身多义项中根据其在文本中出现的频次的排名
synset_offset
lemma所属同义词集合(synset)编号
- 每个data文件头都有几行包括版权说明、版本号以及使用许可协议的文字,这些行都由两个空格和所对应行号开头,以方便程序处理。文件正文每一行都遵从以下的格式:
synset_offset lex_filenum ss_type w_cnt word lex_id [wordlex_id…] p_cnt [ptr…] [frames…] |gloss
synset_offset