这次爬取的是一个电影网页里面的观影排行榜
#思路,拿到页面源代码,通过re提取想要元信息。
import requests,re,csv
Use_info = {
'User-Agent': ''
}
url = 'https://movie.douban.com/top250?start=%s&filter='%(0)
resps = requests.get(url,headers= Use_info)
page_info = resps.text
resps.close()
先抓到你想要的网页源代码信息,可以在网页右击查询源代码看看你要的信息是不是都在源代码里面。
#解析数据,假设要名字,时间,。评分。多少人评价
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)'
r'</span>.*?<p class="">.*?<br>(?P<year>.*?) '
r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
r'.*?<span>(?P<pingjia>.*?)</span>',re.S)
result = obj.finditer(page_info)
with open('豆瓣电影内容.csv',mode = 'w')as f:
csvwrite = csv.writer(f)
for item in result:
dic = item.groupdict