
网络爬虫
scriptin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy使用过程中的中文乱码问题
在使用scrapy抓取微博的话题时,抓取到了一个中文字段(用变量a表示),无论使用何种编码方式都无法正确显示,如下所示: 查看a的编码后,确认是unicode编码,具体值如下所示: 直接print a结果为乱码,将a encode之后,结果仍未乱码: 并且我们发现a.encode('utf-8')之后,字节序列的值都发生了变化,直观上感觉应该不能回复成原来的中文了。经原创 2015-06-30 16:39:03 · 11787 阅读 · 1 评论 -
BaseSpider在scrapy中的使用
Scrapy中继承自BaseSpider的爬虫是不被推荐的,如下所示: from scrapy.spider import BaseSpider class NegativeCommentScrapy(BaseSpider): ...查看scrapy的源码,在scrapy.spider模块中可以看到BaseSpider的生成方式,他是通过如下方式构造的: BaseSpider = cr原创 2015-08-26 17:30:47 · 2656 阅读 · 0 评论 -
ImportError: cannot import name Pseudo
在scrapy中使用PyQuery出现如下错误: from lxml.cssselect import Pseudo, XPathExpr, XPathExprOr, FunImport Error: cannot import name Pseudo 百度了一堆没有任何提示,无奈google上不去,一直没法解决。本以为是lxml没有安装成功,重新装了一次后还是不行。最后用www.g原创 2015-03-31 17:03:40 · 3648 阅读 · 0 评论