python爬虫
pinuscembra
始于心甘情愿,终于愿赌服输!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python 文件的读写 日常笔记
文件及列表的读写1.将数据提取并整理到---列表中2.将数据提取并整理到--文本文档中1.创建一个文件夹1.将数据提取并整理到—列表中#读取字符串数据,提取并整理到空列表中data = input("请输入任意字符串:")list1 = [] #存储字符串list2 = [] #存储数字for i in data: if i.isdigit(): #判断字符是否为数字,如果为数字就执行下面命令 list2.append(int(i)) #将数字强制转化为整数,并原创 2020-07-09 02:19:45 · 1407 阅读 · 0 评论 -
python--urlopen函数urlretrieve函数
request模块--urlopen函数、urlretrieve函数一.urlopen函数1.说明2.注意点3.示例urlretrieve函数1.说明示例一.urlopen函数1.说明创建一个表示远程url的类文件对象,然后操作这个类文件对象来获取远程数据2.注意点1.url:是请求的url2.data:请求如果加上data值,就会将get请求变为post请求3.返回值:返回值是一个http.client.HTTPResponse对象,这个对象是类文件句柄对象,有 读取字节:read(size原创 2020-07-14 11:24:12 · 4545 阅读 · 1 评论 -
python--编码与解码函数
parse模块--urlencode函数 quote函数 parse_qs函数 decode 一.编码1.urlencode函数1.介绍2.代码块3.输出结果2.quote函数1.介绍2.代码块3.输出结果二.解码1.parse_qs函数1.介绍2.代码块3.输出结果2.decode()1.介绍2.代码块3.输出结果parse模块–urlencode函数 quote函数 parse_qs函数 decode()一.编码1.urlencode函数1.介绍urlencode函数可以把字典中的数据转化为U原创 2020-07-14 13:47:43 · 3752 阅读 · 0 评论 -
python--ProxyHandler处理器 代理IP
通过ProxyHandler处理器 解决封IP问题一.代理的介绍1.ProxyHandler函数的作用2.代理的作用3.代理的原理4.免费的代理网站二.实例1.代码块2.常见报错一.代理的介绍1.ProxyHandler函数的作用ProxyHandler用来调用代理IP地址,通过代理IP访问目标网站;一般网站的反爬机制会检测到某个IP的在某个时间段的访问次数,如果访问速度过快或者访问次数过多,他就会限制这个IP的访问次数。2.代理的作用简单来说,就是解决IP限制问题3.代理的原理在访问目标网站原创 2020-07-16 20:38:53 · 2172 阅读 · 0 评论 -
python-cookie http.cookiejar用法
python - cookie http.cookiejar模块一. cookie1.简单介绍2.cookie的参数3.补充4.实例二. http.cookiejar模块1.主要的类及作用2.实例一. cookie1.简单介绍cookie是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密);cookie存储数的据量是有限的,不同的浏览器有不同的存储大小,但一般不超过4KB,因此cookie只能存储一些小量的数据2.cookie的参数NAME :cooki原创 2020-07-18 00:00:10 · 4451 阅读 · 0 评论 -
python--XPath语法的介绍及使用
python--XPath语法及使用方法1.介绍2.XPath节点3.XPath语法1.基本语法2.谓语3.通配符4.选取若干路径5.contains函数1.介绍XPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用在XML和HTML文档中对元素和属性进行遍历2.XPath节点有7种类型的节点:元素、属性、文本、命名空间、处理指令、注释、文档节点(根节点)3.XPath语法XPath使用路径表达式来选取XML文档中的节点或节点集,节点是沿着路径(pat原创 2020-07-19 12:19:49 · 3235 阅读 · 0 评论 -
Python--lxml库的简单介绍及基本使用
lxml库简单介绍和基本使用1.lxml库介绍2.安装lxml方法3.基本使用1.lxml库介绍lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容2.安装lxml方法方法1:在cmd运行窗原创 2020-07-19 23:17:15 · 20293 阅读 · 1 评论 -
python--处理繁琐的cookie格式问题
将cookie转化为字典格式其实就是对cookie做了简单的处理,目的是为了节省时间…你们可以参考,也可以直接复制过去用,基本适用于大部分cookie格式# @Author : Keep# @File : 处理cookie信息格式.py# 处理cookie信息cookie = ('cookie: _zap=d368da5c-946c-4fb8-a566-04b2b33c51d9; _xsrf=oNkVQXFiBgRN0eBC4loWGcqFU0xOCJYg; d_c0="ALDRox原创 2021-01-05 16:20:34 · 459 阅读 · 0 评论 -
python--多线程爬取王者荣耀高清壁纸
多线程爬取王者荣耀高清壁纸import threadingimport requestsimport randomfrom urllib import requestfrom urllib import parseimport osimport queueimport threadingimport requestsimport randomfrom urllib import requestfrom urllib import parseimport osimport queu原创 2021-01-05 15:58:03 · 729 阅读 · 0 评论 -
Python静态爬虫
爬取某猎聘网站的案例介绍1.爬取网站的目的获取某猎聘网站上案例介绍的数据信息,并且将爬取到的数据写入到Excel表格中2.找到关键信息源代码从某网站的源代码中找到要提取的数据----案例介绍信息这些代码有着共同的特征-----标签一样#根据源代码定义要匹配和提取的数据rel = '<div class="sc_d_c">.*?<span class="sc_d_con">(.*?)</span></div>' #获取数据信息# .*? 起原创 2020-07-16 00:33:18 · 2938 阅读 · 0 评论
分享