# Python开发学习笔记:爬取猫眼电影排行
# 导入包:导入包如果没有使用颜色会保持为灰色
import json
import requests
# re模块:提供了对正则表达式的支持
import re
# 实现获取猫眼电影排行第一页的函数
def get_one_page(url):
# 设置请求头中的UA(User-Agent):特殊的字符串头,可以是服务器识别客户端使用的
# 操作系统及版本、浏览器集版本信息,做爬虫时加上此信息可以伪装成浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/73.0.3683.103 Safari/537.36'
}
# 使用requests的get发起请求并获得响应结果
response = requests.get(url,headers=headers)
# 判断响应结果的状态码;200代表成功
if response.status_code == 200:
return response.text
return None
# 定义HTML页面内容解析函数
def parse_one_page(html):
# print("打印html内容")
# print(html)
print("开始解析文本内容")
# re.compile(pattern[,flags]):根据包含正则表达式的字符串创建模式对象,以提高匹配效率
# .*:匹配任意字符;?:匹配0个或1个前面的正则表达式定义的片段,非贪婪模式
# ():匹配括号内的表达式,也表示一个组
# 根据源码分析正则表达式:
# (1)匹配电影排行:<dd>.*?board-index.*?>(.*?)</i>
# (2)匹配
Python开发学习笔记:抓取猫眼电影排行
最新推荐文章于 2023-07-10 09:08:43 发布