python爬虫入门（1）_爬虫根据文本搜索-优快云博客

本文介绍了Python基础爬虫技术，包括使用requests库发送HTTP请求获取响应，利用BeautifulSoup解析HTML文档，以及正则表达式的应用。通过实例展示了如何查找标签、属性和文本，以及正则表达式的模式匹配。最后提到了json模块在数据处理中的作用，给出了疫情数据采集的实战案例。

python爬虫（基础篇）

网络爬虫：模拟客户端发送请求获取响应数据，按照一定规则，自动从万维网上获取信息的程序。

1 requests请求库

是一个优雅而简单的python HTTP请求库，作用是发送请求获取响应数据。

基本使用

import requests
#发送请求，获取响应
response=requests.get('http://www.baidu.com')
#print(response)
#获取响应数据
response.encoding='utf-8'   #改变编码方式
print(response.text)
#更简易方式 response.content.decode()     content熟悉为响应内容的二进制，decode默认utf-8

2 Beautiful Soup

是一个可以从HTML或XML文件中提取数据的python库

安装：bs4，lxml（解析库）

lxml是一个解析器，也是下面的xpath要用到的库，bs4将网页字符串生成对象的时候需要用到解析器，就用lxml，或者使用官方自带的解析器 html.parser

bs对象

代表要解析的整个文档树，它支持遍历文档树和搜索文档树中描述的大部分方法。

#创建
from bs4 import BeautifulSoup
soup=BeautifulSoup('<html>data</html>','lxml')
print(soup)

bs对象中find方法

作用：搜索文档树

find(self,name=None,attrs={},recursive=True,text=None,**kwargs)

参数：

name：标签名

attrs：属性字典

recursive：是否递归循环查找

text：根据文本内容查找

查找到的第一个元素对象

find_all：返回所有

1 根据标签名查找

from bs4 import BeautifulSoup
#准备文档字符串
html='''   '''
#创建bs对象
soup=BeautifulSoup(html,'lxml')
#查找标签
title=soup.find('title')
print(title)

2 根据属性进行查找

#查找id为link1的标签
# 1 通过命名参数进行指定
a=soup.find(id='link1')
print(a)
# 2 通过attrs来指定属性字典，进行查找(更通用)
a=soup.find(attrs={'id':'link1'})
print(a)

3 根据文本内容进行查找

text=soup.find(text='aaa')
print(text)

Tag对象

对应于原始文档中的XML或HTML标签

Tag有很多方法和属性，可用遍历文档树和搜索文档树来获取标签内容

常见属性：

name：获取标签名称

attrs：获取标签所有属性的键和值

text：获取标签的文本字符串

# 标签名 a
print('标签名',a.name)
print('标签所有属性',a.attrs)
print('标签文本内容',a.text)

3 正则表达式

正则表达式是一种字符串匹配的模式。

作用：

检查一个字符串是否含有某个子串

替换匹配的子串

提取某个字符串中匹配的子串

基本匹配模式

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r’\t’，等价于 \t )匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	匹配n个前面表达式。例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的两个o。
re{ n,}	精确匹配n个前面表达式。例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o。"o{1,}“等价于"o+”。"o{0,}“则等价于"o*”。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (…), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#…)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。
(?> re)	匹配的独立模式，省去回溯。
\w	匹配数字字母下划线
\W	匹配非数字字母下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f]。
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]。
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B	匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\n, \t, 等。	匹配一个换行符。匹配一个制表符, 等
\1…\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。
1111111111

字符匹配实例

字符匹配

实例	描述
python	匹配 “python”.

字符类

实例	描述
[Pp]ython	匹配 “Python” 或 “python”
rub[ye]	匹配 “ruby” 或 “rube”
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

特殊字符类(预定义字符集)

实例	描述
.	匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]’ 的模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
\W	匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]’。

使用

import re
#字符匹配
rs=re.findall('abc','abc')
rs=re.findall('a[bc]d','abc')
#预定义的字符集
rs=re.findall('\d','123')
#数量词
rs=re.findall('\d*','123')
rs=re.findall('\d{2}','123')     #指定次数
print(rs)

re.fiandall()方法

API

re.findall(pattern,string,flags=0)
作用：扫描整个string字符串，返回所有与pattern匹配的列表
参数
1. pattern：正则表达式
2. string：要匹配的字符串
3. 匹配模式
举例
```
re.findall('\d','hao1hao2')>>['1','2']
```

使用

#flags参数的作用
rs=re.findall('a.bc','a\nc',re.S)
#findall方法中分组的使用
rs=re.findall('a.+bc','a\nc',re.S)
rs=re.findall('a(.+)bc','a\nc',re.S)  
#分组后只返回括号内匹配的内容，括号两边字符用以定位

正则中r原串

#不使用r原串，遇到转义符怎么办
rs=re.findall('a\nbc','a\nc')
rs=re.findall('a\\\\nbc','a\\nc')
#r原串在正则中可以消除转义符带来的影响
rs=re.findall(r'a\\nbc','a\\nc')

4 json模块

json模块是python自带的模块，用于json与python数据之间的相互转换。

json转python

python转json

5 项目实例：疫情数据采集

思路

1.发送请求，获取疫情首页

2.从疫情首页中提取近一日各国疫情字符串

3.提取json格式字符串

4.将json格式字符串转化为python类型

import requests
from bs4 import BeautifulSoup
import re
import json

response=requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_page=response.content.decode()

soup=BeautifulSoup(home_page,'lxml')
script=soup.find(id="getListByCountryTypeService2true")

text=script.string
json_str=re.findall(r'\[.+\]',text)[0]

last_day=json.loads(json_str)
print(last_day)