
爬虫
姑苏冷
不想成为技术大牛的程序员不是一个好的程序员
展开
-
Python-爬虫(七)scrapy-爬取糗事百科分页内容,解决分页请求重定向问题
上篇内容我们只把第一页内容爬取了下来,这次我们看下scrapy中的分页是怎么查询出来的。在上篇的代码基础上我们修改spiders下的代码:要注意和之前不同的地方。import scrapyfrom first_project.items import FirstProjectItem#爬虫继承scrapy.Spiderclass QiushibaikeSpider(scrapy.Spider): # 当前爬虫的名字,一个项目中唯一,后面启动当前爬虫使用这个name nam原创 2020-10-28 19:12:35 · 430 阅读 · 0 评论 -
Python-爬虫(六)scrapy快速入门案例-爬取糗事百科
一:安装window环境通过命令行安装: pip install scrapy在winodw下使用这个框架还要安装一个它依赖的包,不然运行的时候会报错: pip install pypiwin32二:快速入门安装成功之后可以通过:scrapy 命令查看相关命令。我们使用startproject命令创建一个新项目。: scrapy startproject first_start用pycharm打开这个项目看下生成的目录。项目创建好之后,我们开始创建一个爬虫。创建一个爬虫.原创 2020-10-22 08:12:41 · 714 阅读 · 1 评论 -
Python-爬虫(五)多线程threading模块使用-多线程爬取斗图网表情包
爬取电影天堂的最新电影的内容,涉及分页,只爬取几页的内容。页面分析分析最新电影页面,发现无论跳到第几页,url中只会改变一个参数:list_23_1.html,list_23_2.html,list_23_3.html等等电影的详细信息由如下a标签的的内容跳转开始爬取电影详情页url...原创 2020-10-16 00:16:15 · 456 阅读 · 1 评论 -
Python-爬虫(四)xpath和lxml模块入门使用爬取天堂电影
xpath简介xpath(xml path language)是一门在xml和html文档中查找信息的语言,可用来在xml和html文档中对元素和属性进行遍历。我们爬取页面之后用xpath语法获取我们需要的内容。可以使用谷歌插件在页面中直接写xpath语法。可以从我的资源中下载。使用效果如下:xpath语法语法比较简单可以参考:xpath语法表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前..原创 2020-10-11 15:39:42 · 840 阅读 · 0 评论 -
Python-爬虫(三)requests库的使用
什么是RequestsRequests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。主要使用import requestsresponse= requests.get("http://www.baidu.com")#response.text是经过解码之后的内容,但是解码的格式不一定是我们需要的,如下内容会出现乱码print(原创 2020-07-23 21:40:15 · 7682 阅读 · 0 评论 -
Python-爬虫(二)-urllib的代理设置和cookie设置自动登陆
目录一:ProxyHandler处理器(代理设置)二:cookie设置自动登陆使用cookielib库和HTTPCookieProcessor模拟登陆:设置cookie信息三:cookie保存到本地一:ProxyHandler处理器(代理设置)许多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数过多,就会禁用这个iP,我们可以设置一些代理服务器,每隔一段时间换一个IP,就算IP被禁止,也可以换一个IP。urllib中通过ProxyHand.原创 2020-07-19 22:45:00 · 6660 阅读 · 0 评论 -
Python-爬虫(一)--urllib库使用,爬取拉勾网数据
一:简介 urllib库是python中最基本的网络请求库,可以模拟浏览器的行为,向指定服务器发送一个请求,并保存服务器返回的数据。二:urlopen函数 在pyhon3的urllib库中,所有的网络请求相关的方法,都被集中到urllib.request模块下。函数原型如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, con...原创 2020-07-14 22:56:39 · 3367 阅读 · 0 评论