网页聚合行为与内容特征分析
在当今的互联网环境中,网页聚合(Web Syndication)技术在信息传播和共享方面发挥着重要作用。本文将深入探讨RSS/Atom 源的相关特征,包括源类型、发布活动、项目结构、长度、复制率以及词汇分析等方面。
1. 源分析
1.1 源类型
识别出了六种以 RSS/Atom 源形式提供内容的信息源类型:
- 新闻媒体(Press):涵盖报纸和新闻机构。
- 博客(Blogs):个人博客。
- 论坛(Forums):讨论和邮件列表。
- 销售(Sales):营销网站。
- 社交媒体(Social media):如 Twitter、Digg、Yahoo! 群组等。
- 其他(Misc):包括新闻、医疗、城市/群组信息、播客等。
对 8155 个有效源进行分类,结果如下表所示:
| 类型 | 源的百分比 | 项目的百分比 | 每个源的平均项目数 |
| ---- | ---- | ---- | ---- |
| 社交媒体 | 1.77% | 9.45% | 7085.03 |
| 新闻媒体 | 9.99% | 38.82% | 5141.24 |
| 论坛 | 1.51% | 3.62% | 3178.01 |
| 销售 | 11.32% | 15.49% | 1811.92 |
| 其他 | 41.47% | 25.47% | 812.99 |
| 博客 | 33.93% | 7.14% | 278.55 |
从表中可以看出,社交媒体、新闻媒体和论坛的生产力较高,而销售、其他和博客的
超级会员免费看
订阅专栏 解锁全文

1038

被折叠的 条评论
为什么被折叠?



