从语义Web挖掘到社交与普适Web挖掘:回顾与展望
1. 引言
在语义Web成为研究热点几年后,Tim O’Reilly提出了“Web 2.0”的概念。起初,人们并不确定这是一个大规模发展的开端,还是昙花一现。如今看来,Web 2.0(即社交Web)与移动设备正极大地影响着人们的社交互动方式。
我们的研究重点是将信息检索、数据、文本和Web挖掘方法应用于新领域。我们是最早研究挖掘方法与语义Web和社交Web潜在交互的团队之一,目前正将研究范围扩展到移动应用,即普适Web。
数据挖掘是指在大量数据中识别有效、先前未知且潜在有用模式的非平凡过程。Web挖掘则是将数据挖掘技术应用于Web资源的内容、结构和使用情况。常见的Web挖掘技术包括关联规则发现、聚类、分类和序列挖掘等。
Web挖掘主要有以下三种方法:
- Web内容挖掘 :分析Web资源的内容,目前主要是文本挖掘,多媒体数据挖掘的发展有望拓宽对图像、声音、视频等内容的访问。主要挖掘的Web资源是单个页面。
- Web结构挖掘 :通常基于Web页面的超链接结构进行操作,挖掘范围从单个网站到整个Web。该方法利用超文本结构中隐含的额外信息,例如确定在内容分析中看似同等相关的不同页面的相对相关性。
- Web使用挖掘 :关注网站访问者的请求记录,这些记录通常收集在Web服务器日志或通过JavaScript代码获取。页面的内容和结构反映了作者和设计者的意图,而用户的实际行为可能揭示出额外的结构。
这些Web挖掘方法可以应用于语义Web、社交Web和普适We
超级会员免费看
订阅专栏 解锁全文
1921

被折叠的 条评论
为什么被折叠?



