
Python爬虫
文章平均质量分 88
锅巴QAQ
三十年河东,三十年河西!
展开
-
爬虫实践---今日头条<街拍>图片
http://maoyan.com/board/4?offset=0原创 2017-08-15 08:51:00 · 1080 阅读 · 0 评论 -
爬虫实践---Selenium-抓取淘宝搜索商品信息
Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。主要用法参考:Selenium用法https://www.taobao.com 淘宝网首页,输入“美食”,跳转页面,获取页面信息,扣取需要信息进行输出或保原创 2017-09-05 19:59:28 · 3291 阅读 · 3 评论 -
爬虫实践---豆瓣短评+词云分析
电影页面:https://movie.douban.com/subject/26934346/热评:第一页:https://movie.douban.com/subject/26934346/comments?start=0&limit=20&sort=new_score&status=P第n页:https://movie.douban.com/subject/26934346原创 2017-09-08 16:21:48 · 1492 阅读 · 0 评论 -
爬虫实践---新浪微博爬取+json+csv
在此之前,我一直以为新浪微博的爬取,需要模拟登录等等偶然之间,在小歪哥那里得知,有一个网站可以免登录爬取:https://m.weibo.cn/u/+oid,这个oid可以从普通新浪微博那里得到。点击一个关注用户首页,查看其网页源码,源码页搜索用户名,就会看到如下的内容:var $CONFIG = {};$CONFIG['islogin']='1'; $CONFIG['oi原创 2017-09-24 10:51:49 · 2683 阅读 · 1 评论 -
第4章 解析库的使用---Beautiful soup
Beautiful Soup支持的解析器包括:HTML、XML和html5lib,但我们推荐使用lxml解析器,因为其解析器有解析HTML和XML的功能,速度快,容器能力强。from bs4 import BeautifulSoup# 使用时,将第二个参数设置为lxml即可;html是HTML字符串soup=BeautifulSoup(html,'lxml')#prettify()方法...原创 2019-01-24 17:36:35 · 650 阅读 · 0 评论 -
第6章 Ajax数据爬取
有些网页可以正常看到,但requests得到的页面却不一样。因为requests得到原始html文档,然而有些内容(比如Ajax)通过浏览器展示的是经过JavaScript处理数据后生成的结果。数据来源无非有下面几种:Ajax加载、包含在html文档内、经过JavaScript渲染。requests获得的就是包含在html文档内的,倘若遇到页面内容是经过JavaScript处理的结果呢?那么就需要...原创 2019-01-26 10:24:04 · 268 阅读 · 0 评论 -
第7章 动态渲染页面的爬取---1、Selenium的使用
除了Ajax这种JavaScript动态渲染的页面外,还要一些,比如分页部分由JavaScript生成,并非原始HTML代码,还有的比如淘宝页面,即使是Ajax获取数据,但其接口含有加密参数,很难爬取。但是我们找到了:Selenium、Splash、PyV8、Ghost等,实现了可见即可爬取。Selenium,可以驱动浏览器进行点击、下拉等操作,还做到可见即可爬取。首先,安装Seleniu...原创 2019-01-26 19:36:13 · 349 阅读 · 1 评论 -
第4章 解析库的使用---Xpath
lxml、Beautiful Soup、pyquery三个解析库1、使用XPathXML Path Language,XML路径语言。举例://title[@lang='eng'],选择所有名称为title,属性lang的值为eng的节点。from lxml import etree# 导入lxml库中的etree模块html=etree.HTML(text)# 调用...原创 2019-01-21 22:10:27 · 334 阅读 · 0 评论 -
爬虫实践---Scrapy-豆瓣电影影评&深度爬取
Link ExtractorsLink Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。Scrapy提供了 scrapy.linkextractors import LinkExtractor , 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。每个link e原创 2017-08-14 13:43:55 · 2071 阅读 · 0 评论 -
爬虫实践---Scrapy-爬取慕课网热门课程
访问的网站是:http://www.imooc.com/course/list?sort=pop首先我们创建一个Scrapy项目$ scrapy startproject mooc_subjectsNew Scrapy project 'mooc_subjects', using template directory '/home/pit-yk/anaconda3原创 2017-08-12 16:49:26 · 3440 阅读 · 0 评论 -
爬虫---requests库
requests库本质上就是模拟了我们用浏览器打开一个网页,发起请求是的动作。它能够迅速的把请求的html源文件保存到本地。$ pip install requests简单又粗暴,可以使用一下语句查看安装情况:$ pip list密密麻麻中发现了它,requests (2.14.2)接下来,使用requests进行一个简单的操作,访问百度的index页面,并将其源码抓取原创 2017-08-01 10:14:25 · 847 阅读 · 0 评论 -
爬虫---Beautiful Soup库
Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。官方文档安装方式:$ pip install beautifulsoup4继续上一节中的pip list查看是否安装成功。简单使用:下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简原创 2017-08-01 10:44:49 · 946 阅读 · 0 评论 -
爬虫---BeautifulSoup库的解析器
bs4库之所以能快速的定位我们想要的元素,是因为他能够用一种方式将html文件解析了一遍 ,不同的解析器有不同的效果。网络爬虫的最终目的就是过滤选取网络信息,最重要的部分可以说是解析器。安装解析器$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml使用lxml解析器来解释网页原创 2017-08-01 11:27:20 · 1525 阅读 · 0 评论 -
爬虫---正则表达式:re库
从’通配符‘到正则表达式玩linux的同学在bash里一定经常用下面这一段代码:rm -rf /*.txt这里其实就是一个非常简单的删除当前目录下所有txt文件的命令, ’*’号其实就一个 ‘通配符’。表示任何形式的数据。 从这里我们就可以引出正则表达式的概念:正则表达式是用来简洁表达一组字符串的表达式,或者你可以将它理解为高级版的 通配符 表达式举个例子:impo原创 2017-08-01 13:00:19 · 1232 阅读 · 0 评论 -
爬虫实践---抓取百度贴吧
贴吧地址 : http://tieba.baidu.com/f?kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&ie=utf-8 通过对贴吧URl地址进行分析,“utf-8”是编码格式,支持中文。当我们点击下一页时,url变为:http://tieba.baidu.com/f?kw=%E7%94%9F%E6%原创 2017-08-01 15:26:14 · 2214 阅读 · 0 评论 -
爬虫实践---正方教务系统爬取历年成绩
打开学校教务处官网,发现官网的地址其实是http://222.24.19.201/default2.aspx这次的爬虫既有账号密码登录,也有验证码和登录角色选择,有点难度了,搞了两天才搞定,看来还是才疏学浅了,通过这个博客将知识点已经坑点等方面进行总结,也是一个学习的过程。第一步,打开F12中的下面界面。通过登录一个错误账号,我们可以发现,Request URL:h原创 2017-08-10 13:34:17 · 3915 阅读 · 2 评论 -
爬虫实践---抓取小说网站
电子书网站:http://www.qu.la/paihangbang/ 对网页进行分析可知, 玄幻奇幻排行 武侠仙侠排行 历史军事排行原创 2017-08-03 15:08:57 · 10022 阅读 · 0 评论 -
爬虫实践---电影排行榜
哈哈!经过几天的学习,已经可以自己独立地慢慢的来写”蜘蛛侠“了,加油!电影网站:http://dianying.2345.com/top/首先对于网站进行浏览,查看一下网页大概信息。对于大体框架来看,电影有元素---海报,电影名称,上映时间,主演,故事简介。观察发现,电影排行榜在class=“picList clearfix"下进行展开的,每一个电影有一个li构成。原创 2017-08-03 16:32:12 · 1649 阅读 · 0 评论 -
第8章 验证码的识别---1、图形验证码的识别+2、极验验证码的识别
图形验证码一般是4位字母或者数字。这类验证码利用OCR识别技术识别。需要python库为tesserocr,其需要tesseract的支持,后者下载链接:https://github.com/tesseract-ocr/tesseract下载完成后,安装过程中,需要注意,要勾选:Additional language data download 选项来安装 OCR 识别支持的语言包。接下来...原创 2019-01-28 11:41:30 · 1323 阅读 · 0 评论