
笔记
文章平均质量分 76
雨未停、天未晴
这个作者很懒,什么都没留下…
展开
-
Requests库函数的学习(玩转python网络爬虫)
一、请求方式HTTP常用的请求方式是GET和POST,Requests对此区分两种不同的请求方式。(1)GET请求Requests的GET请求分为两种:不带参数和带参数。判断URL是否带有参数,通过对“?”进行判断,“?”表示带有参数。import requests# 第一种方法r = requests.get('https://www.baidu.com/s?wd=pyth...原创 2018-10-12 17:03:38 · 828 阅读 · 0 评论 -
urllib库的学习总结(python3网络爬虫开发实战项目)
urllib库是python内置的HTTP请求库,包含以下四个模块:request:最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。 error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。 parse:工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。 r...原创 2018-10-11 16:54:47 · 853 阅读 · 0 评论 -
数据处理(玩转python网络爬虫)
从网页上采集的数据后,大多数的数据是杂乱无章的,这时就需要对数据进行加工处理,去掉一些垃圾数据才能得到我们想要的数据。常用的方法有以下三种方法:字符串操作,正则表达式和第三方模块库。一、字符串操作(截取、替换、查找和分割)(1)截取:字符串[开始位置:结束位置:间隔位置]开始位置为0,正数代表从左边位置开始,负数代表从右边开始,默认从0开始 结束位置是被截取的字符串位置,默认取到字符...原创 2018-10-17 22:52:58 · 1749 阅读 · 0 评论 -
验证码识别学习笔记(玩转python网络爬虫)
网站中加入验证码的目的是加强用户的安全性和提高反爬虫机制,有效防止对某一特定用户用特定程序暴力破解的方式不断进行登录尝试。一、验证码类型字符验证码:在图片上随机产生数字、英文字符或汉字,一般由4位或5位组成验证码组成,通过添加干扰线、添加噪点、添加字符的粘连程度和旋转角度来增加机器识别的难度,运用OCR技术能够破解。 图片验证码:应用了字符验证码的技术,不再是随机的字符,而是让人识别图片...原创 2018-10-13 15:43:52 · 733 阅读 · 0 评论 -
python基础学习(不了解或了解深浅)
一、标识符Python中以下开头的标识符是有特殊意义的,一般避免使用:以单下划线开头的标识符(如_width)表示不能直接访问的类属性,另外也不能通过“from xxx import *”导入 以双下划线开头的标识符(如__add)表示类的私有成员 以双下划线开头和结尾的是Python里的专有标识(如__init__表示构造函数)二、变量变量的类型可以随时变化,使用内置函数typ...原创 2018-10-22 10:46:25 · 232 阅读 · 0 评论