文本文件的数据挖掘:方法与应用
1. 双词邻近矩阵(BPM)
双词邻近矩阵(BPM)是一个方阵,其列标题和行标题是词库中按字母顺序排列的词条。矩阵元素 $b_{ij}$ 表示在文本单元中,单词 $i$ 紧跟在单词 $j$ 之前出现的次数。BPM 的大小由文本中单词的唯一出现次数按字母顺序列出所创建的词库大小决定。这种语义内容的 BPM 表示保留了足够独特的特征,能够在语义上与其他主题不相关集合的 BPM 区分开来。
1.1 BPM 示例
以句子 “The wise young man sought his father in the crowd.” 为例,其 BPM 如下表所示:
| | crowd | his | in | father | man | sought | the | wise | young |
| — | — | — | — | — | — | — | — | — | — |
| crowd | 1 | | | | | | | | |
| his | | 1 | | | | | | | |
| in | | | 1 | | | | | | |
| father | | | | 1 | | | | | |
| man | | | | | 1 | | | | |
| sought | | | | | | 1 | | | |
| the | | | | | | | 1 | 1 | |
| wise | | | | | | | | 1 | |
| young | | | | | | | | | 1 |
从表中可以看出,位于第三行(his
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



