基于Python爬虫、MySQL数据库、Excel所做的数据分析报告见:
豆瓣Top250电影数据分析报告
一、目标站点分析
首先进入猫眼电影
点击榜单,找到top100榜单
电影信息对应源代码被“dd”标签包含
排名、电影名、主演、上映时间、评分等所需要的信息,都在此标签内:
二、抓取单页内容
利用requests请求目标站点,得到单个网页HTML代码,返回结果。
Python代码:
def get_one_page(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except RequestException: