开发环境
:Python3.7.1+PyCharm2018
开发内容
:使用爬虫利器requests爬取猫眼电影
爬取猫眼电影网站的流程图
:

代码:`#导包
import csv
import re
import requests
from requests import RequestException
3.页面内容获取
请求一个页面返回响应内容
url:页面网址;offset:是指页面电影开始序号
def get_one_page(url,offset):
try:
#解决浏览器兼容问题,设置消息头,伪装成浏览器的正常访问
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36’}
# 对目标网站发起请求,requests是爬虫利器
response = requests.get(url=url, headers=headers,params={“offset”:offset})
print(response)
#如果HTTP的状态码是200,表示网络请求成功,返回unicode型的html文本源码,如果是404没有找到网址路径;500:代码语法问题;303:浏览器兼容性问题;

本文详细介绍使用Python和requests库爬取猫眼电影网站数据的过程,包括如何获取页面内容、解析数据并存储到CSV文件中,同时下载封面图。
最低0.47元/天 解锁文章
939

被折叠的 条评论
为什么被折叠?



