爬虫_Edward-liang的博客-优快云博客

爬虫

关注

关注数：文章数：8 文章阅读量：22716 文章收藏量：1

作者: Edward-liang

If you really want to do something, there'll be a way. If you don't, there'll be an excuse.

展开

专栏收录文章

安装scrapy报错 Python.h: 没有那个文件或目录

安装scrapy的时候报错，其实这个错误是一个间接，由其依赖引起。

原创 2015-12-31 10:29:29 · 8920 阅读 · 0 评论
安装scrapy报错 Python.h: 没有那个文件或目录

安装scrapy的时候报错，其实这个错误是一个间接，由其依赖引起。

原创 2015-12-31 10:30:10 · 2188 阅读 · 0 评论
爬取新浪搜索内容遇到的问题及解决

在Nutch爬虫爬取新浪的时候爬取率低，抽查了相关种子发现新浪搜索页面的帖子爬取率很低。遂展开分析

原创 2015-12-04 14:20:43 · 2528 阅读 · 0 评论
CasperJS学习笔记--命令行参数

基于官方的使用实例，介绍CapserJS内置命令行工具的参数使用。

原创 2015-12-05 15:25:09 · 2737 阅读 · 0 评论
CasperJS学习笔记--循环

CasperJS的循环控制很简单，用repeat（）函数即可，本篇包含一个传入参数循环读取的例子。

原创 2015-12-06 21:08:34 · 2767 阅读 · 0 评论
中关村在线ZOL搜索页面：找出值得抓取的host

现需要获取某个论坛的帖子的url。并且需要更具获取的url的统计情况，对出现比较多的url提供解析功能。本文主要对统计部分的功能进行记录。以中关村在线的搜索结果页面为例，要获取华为和小米搜索结果的前5页进行统计。

原创 2015-12-07 14:03:06 · 1436 阅读 · 0 评论
《图解HTTP》读书心得

读书初衷1.最近开发nutch网页解析插件遇到不少网页返回状态码让我在意。 2.对一些需要2次请求的页面的参数意义不明。 3.据说scrapy爬HTTPS会遇到困难，这东西究竟什么鬼？整理一下对我有用的知识点，不感兴趣的暂时没有细读。

原创 2015-12-23 15:17:51 · 885 阅读 · 1 评论
《Web Scraping with Python》读书笔记

《Web Scraping with Python》 – Ryan Mitchell 2015年6月英文第一版，是我看到的第一本专门介绍python爬虫的书籍。本文并不记录详细的实验记录，事实上我也并没有花时间这样做–时间有限。简要记录该书的主要内容和思路。

原创 2016-01-12 15:31:13 · 1256 阅读 · 0 评论

爬虫

作者: Edward-liang

安装scrapy报错 Python.h: 没有那个文件或目录

安装scrapy报错 Python.h: 没有那个文件或目录

爬取新浪搜索内容遇到的问题及解决

CasperJS学习笔记--命令行参数

CasperJS学习笔记--循环

中关村在线ZOL搜索页面：找出值得抓取的host

《图解HTTP》读书心得

《Web Scraping with Python》读书笔记