
Web 数据挖掘
lin_zyang
这个作者很懒,什么都没留下…
展开
-
面向Web的数据挖掘
现在,很多企业迎接客户的场所已经从传统的物理上的客户接待室转移到了企业 网站上虚拟的客户大厅,而客户开始认识一个企业、认识其产品的第一站也变成了企业的网站,所以,大量的客户信息在企业网站上堆积,而细心的企业管理者一定 会从大量的网站上的信息中找到有价值的客户信息。怎样对Web上的数据进行复杂的应用,数据挖掘开始大显身手。充分利用有用的数据,废弃虚伪无用的数据, 是数据挖掘技术的最重要的应用。原创 2007-08-28 12:51:00 · 1025 阅读 · 0 评论 -
Web数据自动采集及其应用研究
摘要:如何在信息浩如烟海的互联网上准确获取并长期跟踪自己关注的内容,这个新的问题已经成为制约网络使用的重要因素之一。而Web数据自动采集旨 在解决这个问题。文章从理论研究和应用技术的两个方面展开探讨。本文给出了一个自动采集的模型, 设计了基于房地产业的自动采集系统,证明了自动采集的可行性与优点。同时也指出了其存在的局限于不足。 关键字:信息采集 半结构化数据 数据挖掘 房地产[Abstract]转载 2007-08-28 12:48:00 · 1459 阅读 · 0 评论 -
Web数据挖掘技术综述
摘要:Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章首先分析了Web数据挖掘所面临的问题,然后简要介绍了Web数据挖掘的几个分类,最后简单阐述了在Web2.0到来之时,Web数据挖掘所面临的机遇与挑战。关键词:Web数据挖掘;内容挖掘;结构挖掘;使用记录挖掘;用户性质挖掘;Web2.0 论文下载 An Overview of Web Data MiningWANG Ting转载 2007-08-28 12:52:00 · 2959 阅读 · 2 评论 -
Web数据挖掘
Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘流程 与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下原创 2007-08-28 12:54:00 · 4267 阅读 · 2 评论 -
集成Nutch和Solr
两年前集成Nutch和Solr这两个Apache Lucene项目组下的子项目实在是件困难的事情,需要打很多补丁(patches),为他们的联姻搜寻各种必需的组件(required components)。今非昔比,时下,在Solr4.0也即将浮出水面的时候,两者的结合变的相对容易。今年早些时候发布的Nutch1.0包含了"开盒即用"的原装的(out of the转载 2010-01-04 10:18:00 · 8024 阅读 · 3 评论 -
Nutch 插件系统浅析
Nutch 基本情况Nutch是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于Java 开发,基于 Lucene 框架,提供 Web网页爬虫功能。另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展,转载 2009-12-31 10:26:00 · 704 阅读 · 0 评论 -
Google云计算核心技术
<br />本系列是基于公开资料对Google App Engine是如何实现的这个话题进行深度探讨。而且在切入Google App Engine之前,首先会对Google的核心技术和其整体架构进行分析,以帮助大家之后更好地理解Google App Engine的实现。<br /><br />本篇将主要介绍Google的十个核心技术,而且可以分为四大类:<br />分布式基础设施:GFS,Chubby和Protocol Buffer。<br /><br />分布式大规模数据处理:MapReduce和转载 2010-07-12 10:24:00 · 1406 阅读 · 0 评论