Web数据挖掘

最新推荐文章于 2019-06-17 10:52:14 发布

原创

最新推荐文章于 2019-06-17 10:52:14 发布 · 4.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#web #数据挖掘 #文档 #数据库 #算法 #数据仓库

Web挖掘涉及使用数据挖掘技术在WWW数据中发现模式，涵盖数据库技术、信息获取、统计学等领域。典型的Web挖掘流程包括查找资源、信息选择与预处理、模式发现和分析。搜索引擎技术中的信息检索和信息抽取对Web挖掘至关重要。Web挖掘分为内容挖掘、结构挖掘和用法挖掘，分别关注数据、结构和用户行为模式。内容挖掘侧重于文本和多媒体数据，结构挖掘研究超链接结构，用法挖掘则通过分析用户行为优化服务。

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

Web挖掘流程

与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]：

1．查找资源：任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。

2．信息选择和预处理：任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。

3．模式发现：自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

4．模式分析：验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。

搜索引擎技术

Web挖掘作为一个

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。