
Python3网络爬虫
-admin-
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
7-多线程爬虫糗事百科
7-多线程爬虫糗事百科简介多线程 thread 在 Python 里面被称作鸡肋的存在!不建议使用,多是使用多进程,虽然不建议使用,还是做个笔记吧。实现线程的两种方式直接利用函数创建多线程import _threadimport time# 为线程定义函数def print_time(thread_name, delay): count = 0 while c...原创 2020-05-01 21:00:03 · 349 阅读 · 0 评论 -
6-JSON的处理
【Python3网络爬虫】6-JSON的处理简介JSON,全称为JavaScript Object Notation, 也就是JavaScript对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式Python中的json模块dumps、dump、loads、loadjson.loads()把Json格式字符串解码转换成Python对...原创 2020-05-01 20:59:16 · 252 阅读 · 0 评论 -
5-BeautifulSoup的使用
【Python3网络爬虫】5-BeautifulSoup的使用简介BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml ...原创 2020-05-01 20:58:36 · 493 阅读 · 0 评论 -
4-正则运用之爬取糗事百科
【Python3网络爬虫】4-正则运用之爬取糗事百科正则表达式实战巩固import requestsfrom fake_useragent import UserAgentimport reurl = 'https://www.qiushibaike.com/text/page/{}/'headers = { 'User-Agent': UserAgent().chrom...原创 2020-05-01 20:57:58 · 288 阅读 · 0 评论 -
3-正则表达式
【Python3网络爬虫】3-正则表达式re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。函数语法:re.match(pattern, string, flags=0)函数参数说明:参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志...原创 2020-05-01 20:57:22 · 226 阅读 · 0 评论 -
2-Requests库的使用
【Python3网络爬虫】2-Requests库的使用介绍对了解爬虫的一些基本理念,掌握爬虫爬取的流程后,我们需要学习一些更加高级的工具和内容来方便我们的爬取,本节主要介绍requests库的基本用法安装pip insatll requests基本请求import requests# requests.apiurl = "http://www.baidu.com"requ...原创 2020-05-01 20:55:47 · 517 阅读 · 0 评论 -
1-urllib库的使用
【Python3网络爬虫】1-urllib库的使用内置模块介绍Python内置的HTTP请求库,包含四个模块error异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。parse一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。request它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入...原创 2020-05-01 20:54:06 · 303 阅读 · 0 评论