Python3网络爬虫
-admin-
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
7-多线程爬虫糗事百科
7-多线程爬虫糗事百科 简介 多线程 thread 在 Python 里面被称作鸡肋的存在!不建议使用,多是使用多进程,虽然不建议使用,还是做个笔记吧。 实现线程的两种方式 直接利用函数创建多线程 import _thread import time # 为线程定义函数 def print_time(thread_name, delay): count = 0 while c...原创 2020-05-01 21:00:03 · 367 阅读 · 0 评论 -
6-JSON的处理
【Python3网络爬虫】6-JSON的处理 简介 JSON,全称为JavaScript Object Notation, 也就是JavaScript对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式 Python中的json模块 dumps、dump、loads、load json.loads() 把Json格式字符串解码转换成Python对...原创 2020-05-01 20:59:16 · 266 阅读 · 0 评论 -
5-BeautifulSoup的使用
【Python3网络爬虫】5-BeautifulSoup的使用 简介 BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml ...原创 2020-05-01 20:58:36 · 514 阅读 · 0 评论 -
4-正则运用之爬取糗事百科
【Python3网络爬虫】4-正则运用之爬取糗事百科 正则表达式实战巩固 import requests from fake_useragent import UserAgent import re url = 'https://www.qiushibaike.com/text/page/{}/' headers = { 'User-Agent': UserAgent().chrom...原创 2020-05-01 20:57:58 · 297 阅读 · 0 评论 -
3-正则表达式
【Python3网络爬虫】3-正则表达式 re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 函数语法: re.match(pattern, string, flags=0) 函数参数说明: 参数 描述 pattern 匹配的正则表达式 string 要匹配的字符串。 flags 标志...原创 2020-05-01 20:57:22 · 240 阅读 · 0 评论 -
2-Requests库的使用
【Python3网络爬虫】2-Requests库的使用 介绍 对了解爬虫的一些基本理念,掌握爬虫爬取的流程后,我们需要学习一些更加高级的工具和内容来方便我们的爬取,本节主要介绍requests库的基本用法 安装 pip insatll requests 基本请求 import requests # requests.api url = "http://www.baidu.com" requ...原创 2020-05-01 20:55:47 · 529 阅读 · 0 评论 -
1-urllib库的使用
【Python3网络爬虫】1-urllib库的使用 内置模块介绍 Python内置的HTTP请求库,包含四个模块 error异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。 parse一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。 request它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入...原创 2020-05-01 20:54:06 · 321 阅读 · 0 评论
分享