网络内容特征与中小企业 SaaS 态度研究
一、网络内容词汇特征分析
1.1 词汇量增长情况
VW(0.675)略高于文献报道值,这表明由于测试平台中项目存在语言缺陷,词汇量增长更快。这种情况在其他用户生成的文本内容(如网络查询)的词汇演变中也有体现。高 Heap 定律系数(K)是因为早期快速获取热门词汇,导致词汇量迅速增长。以下是 Heap 定律常数表:
| | |VW + VW| | |VW| | |VW| |
| — | — | — |
| K | 51 | 7,921 | 33 |
| β | 0.65 | 0.13 | 0.675 |
1.2 网络查询词汇演变
在网络查询词汇演变中也观察到类似行为,Heap 定律指数超过 0.6 的上限。如相关研究中,网络查询词汇分布指数分别为 0.69 和 0.8136。项目和网络查询中的文本由用户或发布者一次性发送且不修正,导致错误增多,词汇演变更快。而网页文档会经常更新并修正拼写错误。
1.3 词汇排名变化
随着新内容出现,词汇出现频率会随时间变化,其排名也可能改变。通过测量第 t - 1 周和第 t 周词汇排名的差异来衡量排名变化,排名变化与排名成正比,即低频词汇比上周词汇更易改变排名。
使用 Spearman 指标研究特定排名范围的 VW 词汇每周排名变化,公式为:
[S(t) = \sum_{i=1}^{n} |r(t)_i - r(t - 1)_i|]
其中 t 是给定周,(r(t)_i) 和 (r(t - 1)_i) 分别是第 t 周和第 t - 1 周词汇 i 的排名。
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



