13、文本数据中单词共现与顺序统计分析

文本单词共现与顺序统计分析

文本数据中单词共现与顺序统计分析

1. 引言

在文本分析中,研究单词的频率分布、重复间隔长度以及单词之间的共现关系是理解语言基本属性的重要途径。之前的分析可能局限于单个单词,假设不同单词的出现相互独立。而本文将超越这种单单词方法和独立性假设,深入探讨单词对在文本中的共现关系以及单词顺序的影响。

2. 单词重复间隔长度分析

首先,我们来看一个分析单词重复间隔长度的示例代码:

>> find(strcmp(ranked_vocabulary,twowords{2})) 
ans = 
   412 
>> hf = figure(4); % creates a new figure   
>> set(hf,'Color',[1 1 1],'Name','Two more interval length plots'); 
>> % generates the plots   
for k=1:2 
    intervals = diff(find(strcmp(words,twowords{k}))); 
    subplot(2,1,k); nvals = length(intervals); 
    plot(1:nvals,intervals,'-r',[1,nvals],ones(1,2)*mean(intervals),'--k');        
    limits = axis; axis([1,nvals,limits(3:4)]); 
    xlabel(sprintf('Consecutive occurrences 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值