
python爬虫入门
文章平均质量分 87
wyx9027
做一个优雅的程序猿
展开
-
nonce和timestamp在Http安全协议中的作用
原文:http://www.cnblogs.com/bestzrz/archive/2011/09/03/2164620.htmlBasic认证及其安全问题Basic认证是一个流程比较简单的协议,整个过程可以分为以下三个步骤:a) 客户端使用GET方法向服务器请求资源。b) 服务器返回401响应码和WWW-Authentication:Basic realm原创 2016-06-08 08:05:59 · 1572 阅读 · 0 评论 -
Scrapy项目unicodeDecodeError_ascii错误的解决
在编写scrapy爬虫的时候,从网页爬取的数据有中文,保存到json文件后显示为unicode的形式。在网上百度了一下,说是要在json.dump函数中设置参数: ensure_ascii=Falseimport jsonimport chardetimport sysclass SisPipeline(object): def __init__(self):原创 2016-06-10 22:49:04 · 1801 阅读 · 0 评论 -
最全的xpath语法
原文:https://msdn.microsoft.com/zh-cn/library/ms256086(v=vs.80).aspx本主题回顾整个 XPath 参考中出现的语法示例。所有示例均基于 XPath 语法的示例 XML 文件 (inventory.xml)。有关在测试文件中使用 XPath 表达式的示例,请参见本主题最后的“联合 ( | ) 示例”。转载 2016-06-10 23:15:04 · 14068 阅读 · 2 评论 -
Python Scrapy中yield Request的理解
最近在看《learn scrapy》中的关于爬虫的部分,对于parse中的yield Request用法不是很理解,现在总结下。def parse(self, response): # Get the next index URLs and yield Requests next_selector = response.xpath('//*[contains(@class,' '原创 2016-06-07 09:21:07 · 137815 阅读 · 1 评论