
数据挖掘
岛主2008
混迹、闯荡于互联网,开发、架构、管理,奋斗与创业
展开
-
web数据自动采集及其应用研究
1. Web数据自动采集的理论基础Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。因此给人们要准确迅速的获得自己所需要的数据越来越难,尽管目前有各种搜索引擎,但是搜索引擎在数据的查全率考虑较多,而查准率不足,而且很难进一步挖掘深度数据。因此人们开始研究如何更进一步获取互联网上某一个特定范围的数据,从信息搜索到知识发现。1转载 2009-07-16 10:31:00 · 2923 阅读 · 0 评论 -
Selenium模拟浏览器下载页面html源码
有些页面的内容,是在页面加载完后,运行js来调出来显示的。这时候如果只是利用file_get_contents之类函数。这时候Selenium可以帮上大忙。 不过在让Selenium真正按照意愿来工作前,还是遇到了不少麻烦,首先就是getHtmlSource()只能返回部分html源码,即使使用了sleep()来等待和判断还是无济于事,但是用getBodyText()可以返回全部页面text(无html)。看了下php源码,从SRC通信取回数据的两个函数stream_set_blocking()和strea原创 2010-06-28 18:40:00 · 6076 阅读 · 0 评论