
爬虫
TURING.DT
科技改变世界,技术改变人生。
展开
-
Scrapy下xpath基本的使用方法
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。 xpath是原创 2016-10-14 16:29:09 · 931 阅读 · 0 评论 -
Firefox中firebug和xpath checker工具的使用
Firefox是一个非常专业的浏览器,它许多插件。由于爬虫项目需要,要看网页的代码,并且找到有用信息,我推荐firebug这个看代码的工具,并使用xpath提取需要的信息。 firefox浏览器安装好,打开菜单-》附加组件-》扩展-》搜索firebug和xpath checker,安装就可以了,最后重启浏览器 Firebug: 安装好之后,可以在屏幕的下方看到一个小虫的标志,是暗色的,说原创 2016-10-14 16:25:58 · 3580 阅读 · 0 评论 -
Python-2.7安装Scrapy 1.0爬虫实例
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 使用python2原创 2016-04-13 14:27:44 · 2873 阅读 · 0 评论