第一步:进入豆瓣电影网站,右键打开检查,点击Network,查看url
第二步:寻找请求头:User-Agent
第三步:找规律,点击第一页,和第二页会发现start的间隔为20,url的start参数也从0变成20
第四部:敲代码
import json
import urllib.request
import urllib.parse
#请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
for i in range(0,100,20):
#路由
url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=%d'%(i)
#请求体
req=urllib.request.Request(url,headers=headers)
#响应,并解码
response=urllib.request.urlopen(req).read().decode('utf-8')
# print(response)
# 转成json数据
data=json.loads(response)
for i in data['data']:
# 导演
directors=i['directors']
# 评分
rate=i['rate']
# 电影名
title=i['title']
# 明星
casts=i['casts']
#写入txt文件
with open('moive.txt','a+',encoding='utf-8',errors='ingore')as f:
f.write(str((directors,rate,title,casts))+'\n')
f.flush()