15、文本文件的数据挖掘:方法与应用

文本文件的数据挖掘:方法与应用

1. 双词邻近矩阵(BPM)

双词邻近矩阵(BPM)是一个方阵,其列标题和行标题是词库中按字母顺序排列的词条。矩阵元素 $b_{ij}$ 表示在文本单元中,单词 $i$ 紧跟在单词 $j$ 之前出现的次数。BPM 的大小由文本中单词的唯一出现次数按字母顺序列出所创建的词库大小决定。这种语义内容的 BPM 表示保留了足够独特的特征,能够在语义上与其他主题不相关集合的 BPM 区分开来。

1.1 BPM 示例

以句子 “The wise young man sought his father in the crowd.” 为例,其 BPM 如下表所示:
| | crowd | his | in | father | man | sought | the | wise | young |
| — | — | — | — | — | — | — | — | — | — |
| crowd | 1 | | | | | | | | |
| his | | 1 | | | | | | | |
| in | | | 1 | | | | | | |
| father | | | | 1 | | | | | |
| man | | | | | 1 | | | | |
| sought | | | | | | 1 | | | |
| the | | | | | | | 1 | 1 | |
| wise | | | | | | | | 1 | |
| young | | | | | | | | | 1 |

从表中可以看出,位于第三行(his

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值