
爬虫
文章平均质量分 87
土戈
软件开发
展开
-
Python爬虫利器六之PyQuery的用法
前端大大们的福音来了,PyQuery 来了,如果你对 jQuery 熟悉,那么 PyQuery 来解析文档就是不二之选!PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同安装pip install pyquery本文内容参考官方文档:官方文档pyquery 可让你用 jQuery 的语法来对 xml 进行操作。这I和 jQuer...转载 2018-12-07 21:20:02 · 392 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
3.正则表达式相关注解(1)数量词的贪婪模式与非贪婪模式Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。注:一般使用非贪婪模式来提取。(2)反斜杠问题Python里的原生字符串很好地解决了这个问题,匹配一个数字的”\\d”可以写成r”\d”。4.Python Re模块Python...转载 2018-12-06 20:20:14 · 218 阅读 · 0 评论 -
Python爬虫利器一之Requests库的用法
urllib 库,这个作为入门的工具还是不错的以下内容大多来自于官方文档,要了解更多可以参考官方文档安装利用 pip 安装:pip install requests或者利用 easy_install:easy_install requests引入import requests r = requests.get('http://cuiqingcai.com')prin...转载 2018-12-06 21:11:00 · 243 阅读 · 0 评论 -
Python爬虫利器二之Beautiful Soup的用法
如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容。1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup自动将输入文档转换为Unicode编码,输出...转载 2018-12-07 09:32:49 · 276 阅读 · 0 评论 -
Python爬虫实战二之爬取百度贴吧帖子
亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/3138733512?see_lz=1&...转载 2018-12-09 10:45:31 · 814 阅读 · 0 评论 -
Python爬虫实战三之实现山东大学无线网络掉线自动重连
需要输入,学号,另一个是身份证号后六位,然后就可以登录,享受免费的无线网啦。不过不知道谁设置了个登录时长,一段时间后就会掉线了,于是,自动模拟登陆系统就要应运而生啦。来,我们先点击一下连接,看一下浏览器怎么工作的。按下F12,监听网络,我们点击第一个响应,也就是login.jsp,看一下。 具体看一下headers,里面form提交了什么东西,真的是茫茫多的数据啊。 ...转载 2018-12-09 11:15:06 · 835 阅读 · 0 评论 -
Python爬虫利器三之Xpath语法与lxml库的用法
lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath。lxml python 官方文档,更多内容请直接参阅官方文档,本文对其进行翻译与整理。lxmlXPath语法参考w3school视频资源:web端功能自动化定位元素安装:pip install lxmlXPath语法XPath ...转载 2018-12-07 10:26:42 · 267 阅读 · 0 评论 -
Python爬虫利器四之PhantomJS的用法
如果页面是JS渲染的,需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。其中有一个比较常用的工具,那就是PhantomJSPhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。安装两种,1、下载源码之后编译,2、直接下载编译好的二进制文件。编译需要的时间太长,...转载 2018-12-07 14:47:38 · 515 阅读 · 0 评论 -
Python爬虫利器五之Selenium的用法
PhantomJS ,归根结底它是一个没有界面的浏览器,而且运行的是 JavaScript 脚本。简介Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。PhantomJS不也是一个浏览器吗, Selenium...转载 2018-12-07 20:49:37 · 277 阅读 · 0 评论 -
Python爬虫实战四之抓取淘宝MM照片
最新动态更新时间:2015/8/2最近好多读者反映代码已经不能用了,原因是淘宝索引页的MM链接改了。网站改版了,URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的,所以不能用Urllib库来直接抓取了,本篇就只提供学习思路,代码不能继续用了。...转载 2018-12-09 13:12:29 · 277 阅读 · 0 评论 -
Python爬虫实战五之模拟登录淘宝并获取所有订单
淘宝的登录加密和验证太复杂了,煞费苦心。温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了,比较难解决这个问题,以下的代码没法用了,仅作学习参考研究之用吧。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果1. 淘宝的密码用了AES加密算法,最终将密码...转载 2018-12-09 13:27:54 · 2746 阅读 · 2 评论 -
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法框架思路首先我们随便找一个分类地址,外语学习 – 爱问知识人,打开之后可以看到一系列的问题列表。我们在这个页面需要获取的东西有:总的页码数,每一页的所有问题链接。接下来我们需要遍历所有的问题,来抓取每一个详情页面,提取问题,问题内容,回答者,回答时间,回答内容。最后,我们需要把这...转载 2018-12-10 09:33:51 · 611 阅读 · 0 评论 -
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号。可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经不可能了前言嗯,淘宝,它一直是个难搞的家伙。而且买家在买宝贝的时候大多数都是匿名评论的,大家都知道非匿名评论是非常有用的,比如对于大数据分析,分析某个宝贝的购买用户星级状况等等。现在已经不能获取非匿名了,此句...转载 2018-12-10 10:01:12 · 1839 阅读 · 3 评论 -
Python爬虫入门六之Cookie的使用
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)1.Opener当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,ti...转载 2018-12-06 17:24:10 · 226 阅读 · 0 评论 -
Python爬虫入门五之URLError异常处理
本节主要说URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在import urllib2requset=urllib2.Request('http://www.xxxxx.com')try: urllib2.urlopen(req...转载 2018-12-06 16:54:24 · 305 阅读 · 0 评论 -
Python爬虫进阶一之爬虫框架概述
爬虫入门之后,有两条路可以走。一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展。另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入学习它的源码等知识,进一步强化。框架概述比较好用的是 Scrapy 和PySpider。就个人而言,...转载 2018-12-08 11:17:24 · 224 阅读 · 0 评论 -
Python爬虫进阶二之PySpider框架安装配置
项目的地址 :PySpider,以及官方文档:官方文档 安装1. 安装pip:pip安装2. phantomjsPhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、...转载 2018-12-08 11:27:34 · 265 阅读 · 0 评论 -
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。Windows 平台:我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。官网文档:http://doc.scrapy.org/en/latest/intro/ins...转载 2018-12-08 11:31:28 · 209 阅读 · 0 评论 -
Python爬虫进阶四之PySpider的用法
支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。鸿鹄之志抓取淘宝MM的个人信息和图片存储到本地由于网页改版,爬取过程中需要的 URL 需要 JS 动态解析生成,所以之前用的 urllib2 不能继续使用了,在这里我们利用 PySpider 重新实现一下。审时度势爬取目标网站:https://mm.taobao.com/json/re...转载 2018-12-08 12:29:01 · 658 阅读 · 0 评论 -
Python爬虫进阶五之多线程的用法
多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessing 库。“Python下多线程是鸡肋,推荐使用多进程!”不建议你用这个,不过还是介绍下,如果想看可以看看下面,不想浪费时间直接看multiprocessing 多进程鸡肋点1、GIL是什么?GIL的全称是Global Interpreter Lock(全局解释器锁),来源是python设计之...转载 2018-12-08 15:28:32 · 186 阅读 · 0 评论 -
Python爬虫进阶六之多进程的用法
包 multiprocessing。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。Process Lock Semaphore Queue Pipe PoolProcess基本使用在multiprocessing中,每一个进程都用一个Process类来表示。Process([g...转载 2018-12-08 16:35:43 · 363 阅读 · 0 评论 -
Python爬虫进阶七之设置ADSL拨号服务器代理
提示本教程方法已不是最优,最新解决方案请移步 http://cuiqingcai.com/4596.html浏览器显示您的请求过于频繁,IP已经被暂时封禁,请稍后再试!找免费代理?可行,不过我之前测过不少免费代理IP,一大半都不好用,而且慢。不过可以一直维护一个代理池,定时更新。买代理?可以可以,不过优质的代理服务商价格可是不菲的,我买过一些廉价的,比如几块钱套餐一次提取几...转载 2018-12-08 16:40:25 · 2623 阅读 · 0 评论 -
Python爬虫实战一之爬取糗事百科段子
友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故。糗事百科又又又又改版了,博主已经没心再去一次次匹配它了,如果大家遇到长时间运行不出结果也不报错的情况,请大家参考最新的评论,热心小伙伴提供的正则来修改下吧~本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车...转载 2018-12-08 17:22:00 · 446 阅读 · 0 评论 -
Python爬虫入门一之综述
Python版本:2.7首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。学习Python爬虫,要学习:Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功...转载 2018-12-06 15:28:43 · 222 阅读 · 0 评论 -
Python爬虫入门二之爬虫基础了解
2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。因此,用户看到的网...转载 2018-12-06 15:33:35 · 180 阅读 · 0 评论 -
Python爬虫入门三之Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的。import urllib2response = urllib...转载 2018-12-06 15:55:08 · 135 阅读 · 0 评论 -
Python爬虫入门四之Urllib库的高级用法
1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性...转载 2018-12-06 16:17:26 · 125 阅读 · 0 评论 -
HTTP协议的头信息详解
做过Socket编程的人都知道,当我们设计一个通信协议时,“消息头/消息体”的分割方式是很常用的每一个HTTP包都分为HTTP头和HTTP体两部分,后者是可选的,而前者是必须的。每当我们打开一个网页,在上面点击右键,选择“查看源文件”,这时看到的HTML代码就是HTTP的消息体,那么消息头又在哪呢?IE浏览器不让我们看到这部分,但我们可以通过截取数据包等方法看到它。<html>...转载 2011-11-16 14:21:33 · 873 阅读 · 0 评论