
python爬虫
Jmayday
人生就像一场修行,不断改变自己对世界的认知,去探索和发现未知事物的奥秘,一次令人回味无穷的旅途
展开
-
python爬虫实战-腾讯视频
需求:经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块。我一般会在这个条目下面挑电影。但是电影很多,又缺乏索引,只能不停地往下来,让js加载更多的条目。然而前面的看完了,每次找新的片就要拉很久。所以用爬虫将"豆瓣好评"里的电影都爬下来整理到一个表中,方便选片。项目地址:https://github.com/yangrq1018/vqq-douban-film依赖需要如下Python包: requests bs4 - Beautiful soup pandas转载 2020-08-26 09:05:13 · 1498 阅读 · 0 评论 -
scrapy框架基本概念详解
基础部分:1、框架的基本定义是什么? 所谓的框架就是被集成了许多的功能且具有很强的通用性的项目模块。2、什么是scrapy框架? 一个专门用于异步爬虫的框架。3、scrapy框架有哪些常见的功能? (1)高性能的数据解析 (2)请求发送 (3)持久化存储 (4)中间件 (5)分布式 4、scapy的基本应用(1)创建一个工程 scrapy start...原创 2020-05-24 23:29:08 · 560 阅读 · 0 评论 -
爬虫中cookice和代理
cookice相关概念:1、cookice是什么? cookice是存储在客户端的组键值对。(服务器端产生)2、web中cookice的典型应用? 免密登录3、cookie和爬虫有什么联系? 有时候对一张页面发出请求的时候,如果请求中不加cookice是无法获取到对应的数据的,所以cookice是一个非常典型的反爬机制。4、发出请求无法获取数据的解决方法? 一般可以将浏览器中的请求头将cookie手动粘贴在header...原创 2020-05-23 22:44:56 · 745 阅读 · 0 评论 -
爬虫数据解析方法详解
数据解析的方法: 1、正则 2、bs4 3、xpath 4、pyquery1、如何爬取图片数据? 方式1:基于requests 方式2:基于urllib 注:urllib模块作用和requests模块一样,都是基于网络请求的模块。当requests问世后就迅速代替了urllib2、上述两种方法爬取图片的不同之处是什么? 使用urllib的方式爬取图片无法进行UA伪装,而r...原创 2020-05-16 22:56:52 · 2089 阅读 · 0 评论 -
python爬虫:爬取豆瓣网电影信息
豆瓣网:代码如下:import requestsimport urllib.requestif __name__ == "__main__": #指定ajax-get请求的url(通过抓包进行获取) url = 'https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0&genres=%E5%8A%A8%E4%BD%9C' #定制请原创 2020-05-15 00:14:02 · 823 阅读 · 0 评论 -
python爬虫:在搜狗通过关键字获取网页资源
代码如下:import requests# 指定urlurl = 'https://www.sogou.com/web'# 输入搜索关键字keyword =input('enter a key word:')# UA伪装 # 浏览器不同但是其代理对象是一致的headers = { 'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0原创 2020-05-13 22:37:50 · 1119 阅读 · 2 评论 -
python中两种反爬机制
第一种 robots协议 1、什么是robots协议? 一个纯文本、协定了什么数据可以爬和不可以爬总结:防君子不防小人查看方法:打开浏览器输入:www.baidu.com/robots.txt2、request基础request:爬虫中一个基于网络请求的模块作用:模拟浏览器发起请求编码流程(1)指定URL(2)发起请求(3)获取响应数据(4) 持久化存储3、什么是user-agent? 请求载体的身份标识注:请求载...原创 2020-05-13 00:19:02 · 430 阅读 · 0 评论 -
python爬虫基础概念
1、什么是爬虫? 通过编写程序,让其模拟浏览器上网,然后在互联网页面中抓取数据的过程。关键词模拟:浏览器就是一个纯天然最原始的爬虫工具抓取:抓取一整张页面的全部或局部数据2、爬虫的分类(1) 通用爬虫:爬取一整张页面的数据(2) 聚焦爬虫:爬取局部的数据(3)增量式爬虫:监测数据更新情况,爬取更新出来的数据(4)分布式爬虫:提高爬取效率的终极武器3、反爬机制是什么? 作用到门户网站中,制定相关的机制或措施阻止爬虫程序爬取数据4、反反爬策略是什...原创 2020-05-11 23:56:47 · 422 阅读 · 0 评论