
爬虫
文章平均质量分 92
miangmiang咩
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用Scrapy建立一个网站抓取器
最近在学习爬虫,遇到了一个烦人的问题-----博客上的代码,十个有六个编译通过不了,特别忧愁。只能把程序模块化,分步调试,明白了这其中的原委:第一:网页的排版有了更新,以前能够使用正则表达式或者beautiful soup等提取相关内容,由于现在网页版本格式变了,以至于提取不出来相关的信息(主要原因);二:如果你使用的是scrapy框架,这是一个开源程序,版本一直在更新,有些函数已经别弃用了。原创 2015-09-02 19:26:05 · 965 阅读 · 2 评论 -
scrapy爬取博客文章
使用编译器:ipython+vim 使用模块:scrapy+sqlalchemy 在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用,接下来,通过爬取自己的博客文章来实践一下:原创 2015-09-12 22:12:13 · 1900 阅读 · 1 评论 -
selenium抓取动态网页
这世上如果有天堂,天堂应该是图书馆的模样。 ---[阿根廷]豪尔赫·路易斯·博尔赫斯 好开心呀,终于可以把茜茜公主图片批量下载下来了,真是美丽的女子!因为此网页刘亦菲的星图粉刷墙为动态网页,直接读取网页内容是得到不图片信息的,所以我们需要另辟蹊径。 在解决动态网页中,我们通常可以采取以下两种途径: 1.通过抓包工具分析js,ajax的请求,模拟该请求获取js加载后原创 2015-09-16 18:01:10 · 1339 阅读 · 3 评论