维基百科类别网络与时间序列的符号化表示研究
在当今的数据挖掘领域,时间序列数据挖掘(TSDM)和大型网络结构分析吸引了众多研究者的目光。下面将为大家详细介绍关于维基百科页面 - 类别网络的结构分析以及一种新颖的时间序列符号化表示方法。
维基百科类别网络结构分析
对维基百科页面 - 类别网络的研究旨在深入了解其结构特征。研究者提出了一个框架用于处理这个大型网络,并利用该框架分析网络结构,成功在维基百科类别网络中获得了以连接良好的组件形式存在的全局类别集群。
在 2010 年至 2012 年期间,对英文维基百科类别网络的多个实例进行实验。实验发现,页面数量、类别数量、页面 - 类别链接数量以及孤立页面数量均增长了 40 - 60%,而孤立类别的数量则相对稳定。
最显著的发现是,非孤立类别的数量、集群数量、大小为 2 的集群数量以及最大集群的大小似乎都遵循关于阈值 t 的幂律。这种行为在研究的三年英文维基百科类别网络中均有体现。
| 年份 | 页面数量变化 | 类别数量变化 | 页面 - 类别链接数量变化 | 孤立页面数量变化 | 孤立类别数量变化 |
|---|---|---|---|---|---|
| 2010 - 2012 | 40 - 60%增长 | 40 - 60%增长 | 40 - 60%增长 | 40 - 60%增长 |
超级会员免费看
订阅专栏 解锁全文

6054

被折叠的 条评论
为什么被折叠?



