文本数据中单词共现与顺序统计分析
1. 引言
在文本分析中,研究单词的频率分布、重复间隔长度以及单词之间的共现关系是理解语言基本属性的重要途径。之前的分析可能局限于单个单词,假设不同单词的出现相互独立。而本文将超越这种单单词方法和独立性假设,深入探讨单词对在文本中的共现关系以及单词顺序的影响。
2. 单词重复间隔长度分析
首先,我们来看一个分析单词重复间隔长度的示例代码:
>> find(strcmp(ranked_vocabulary,twowords{2}))
ans =
412
>> hf = figure(4); % creates a new figure
>> set(hf,'Color',[1 1 1],'Name','Two more interval length plots');
>> % generates the plots
for k=1:2
intervals = diff(find(strcmp(words,twowords{k})));
subplot(2,1,k); nvals = length(intervals);
plot(1:nvals,intervals,'-r',[1,nvals],ones(1,2)*mean(intervals),'--k');
limits = axis; axis([1,nvals,limits(3:4)]);
xlabel(sprintf('Consecutive occurrences
文本单词共现与顺序统计分析
超级会员免费看
订阅专栏 解锁全文
554

被折叠的 条评论
为什么被折叠?



