
---- 爬虫
文章平均质量分 65
PatrickZheng
这个作者很懒,什么都没留下…
展开
-
学习Python爬虫
在学习廖雪峰老师的python教程,和优达学城的数据分析课程,了解了python的使用,以及数据清洗和处理的一些方法后,想到了“数据获取”。然后就搜到了一篇讲解Python爬虫的系列教程 http://cuiqingcai.com/1052.html。开始了Python爬虫的学习原创 2017-06-18 23:57:01 · 534 阅读 · 0 评论 -
Python爬虫实战之抓取淘宝MM照片(一)
Python爬虫系列教程的一次实战,然而淘宝进行过页面改版,现在已经没有淘宝MM这个版面,取而代之的是淘女郎。改版后,页面是使用JS渲染的,并不能直接通过url来切换页码。该系列教程后续讲到了 selenium + phantomJS,通过这个组合来模拟操作,进行页码切换等。原创 2017-06-19 00:49:56 · 2532 阅读 · 0 评论 -
Python爬虫实战之抓取淘宝MM照片(二)
紧接着上文,继续探索headers在不断尝试过程中,遇到了一个问题:有时候抓回来的网页会没有相关信息。猜测是因为 User-Agent(默认是phantomJS),那就尝试增加 headers。对上文获取到的图片链接进行下载保存原创 2017-06-19 01:29:07 · 1211 阅读 · 0 评论 -
Python爬虫实战之抓取淘宝MM照片(三)
抓取JS动态页面内容 上文的内容,都是对首页内容的抓取和处理,实际上使用urllib2库以及正则表达式也可以完成(当然没有 beautiful soup 方便易用)。这并未能提现到 selenium + phantomJS 的主要用处。本文就会模拟JS渲染的页面翻页。原创 2017-06-19 11:13:39 · 1019 阅读 · 0 评论 -
Python爬虫实战之抓取淘宝MM照片(四)
最后添加上 标题切换、本地目录创建、日志记录等,完善了整体代码。过程中遇到了一个自己坑了自己的地方:中文乱码问题! 一定要注意:python代码文件开头要加上 : # -- coding: utf-8 --带中文的字符串前一定要加上 u,比如 (u”hi,你好”)还有一点,我试过不是必需的。参见 http://blog.youkuaiyun.com/isfirst/article/details原创 2017-06-19 19:34:40 · 1001 阅读 · 0 评论 -
安装爬虫框架PySpider遇到的一个问题
命令 pyspider all 报错:pkg_resources.DistributionNotFound: wsgidav可能的解决方案:pip install -U setuptools原创 2017-06-19 23:16:19 · 4791 阅读 · 0 评论 -
爬虫遇到连接中断问题,误以为是反爬
爬虫的一些尝试,误以为遭遇反爬原创 2017-10-19 00:24:38 · 7415 阅读 · 1 评论