13、文本数据中单词共现与顺序统计分析

文本单词共现与顺序统计分析

最新推荐文章于 2025-10-18 12:16:16 发布

study

最新推荐文章于 2025-10-18 12:16:16 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏： MATLAB文本挖掘实战文章标签：文本分析单词共现顺序统计

本文链接：https://blog.youkuaiyun.com/study/article/details/151211300

MATLAB文本挖掘实战专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本数据中单词共现与顺序统计分析

1. 引言

在文本分析中，研究单词的频率分布、重复间隔长度以及单词之间的共现关系是理解语言基本属性的重要途径。之前的分析可能局限于单个单词，假设不同单词的出现相互独立。而本文将超越这种单单词方法和独立性假设，深入探讨单词对在文本中的共现关系以及单词顺序的影响。

2. 单词重复间隔长度分析

首先，我们来看一个分析单词重复间隔长度的示例代码：

>> find(strcmp(ranked_vocabulary,twowords{2})) 
ans = 
   412 
>> hf = figure(4); % creates a new figure   
>> set(hf,'Color',[1 1 1],'Name','Two more interval length plots'); 
>> % generates the plots   
for k=1:2 
    intervals = diff(find(strcmp(words,twowords{k}))); 
    subplot(2,1,k); nvals = length(intervals); 
    plot(1:nvals,intervals,'-r',[1,nvals],ones(1,2)*mean(intervals),'--k');        
    limits = axis; axis([1,nvals,limits(3:4)]); 
    xlabel(sprintf('Consecutive occurrences