有效网站挖掘:结合自组织映射和本体论
1. 引言
自上世纪90年代末互联网成为主流以来,它极大地改变了人们的工作、交流、学习、社交以及了解时事的方式。截至2010年8月,仅索引网页就至少有145.6亿页。同时,Web 2.0的出现让互联网的使用迎来了新的爆发。Web 2.0指的是那些内容不仅由网站管理员修改,还能由访客贡献的网站,像Facebook、LinkedIn、Twitter等社交网络,以及Picasa、YouTube等可分享图片和视频的网站。以下是一些社交媒体网络的数据:
- 互联网上有1.26亿个博客。
- 2009年11月,Twitter每天有2730万条推文。
- Facebook有3.5亿用户,其中50%的用户每天登录。
- Facebook有50万个应用程序。
这些庞大的数据表明互联网上存在着海量信息。同时,网络技术的进步和搜索引擎的发展催生了一种“不耐烦”的互联网文化,用户期望能在数秒内找到所需信息。如今,互联网已成为日常生活的一部分,许多人在办公室、家中设备以及移动设备上都能随时联网。
对于网站来说,面临着两个主要挑战:吸引访客和让访客在网站上停留足够长的时间以实现网站目标。本文着重探讨第二个挑战,即如何通过聚类技术帮助网站访客快速有效地找到信息。网页聚类方法众多,它们属于数据挖掘中的Web挖掘范畴。Web挖掘通常有两种应用方式:
- Web内容挖掘:从互联网上的各种来源发现信息。
- Web使用挖掘(本文也称为上下文挖掘):挖掘用户的浏览和访问模式。
网站内容可通过分析网页的源代码来研究,在本文中主要关注呈现给访客的文本内容。内容挖掘技术可用于向访客推荐与当前访问页面相似的网页
超级会员免费看
订阅专栏 解锁全文
1260

被折叠的 条评论
为什么被折叠?



