python爬虫爬取豆瓣TOP250用csv文件

一、爬取数据并用csv文件保存

import numpy as np
import requests
from lxml import etree
from time import sleep
import xlwt
import csv
url='https://movie.douban.com/top250'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
titles_cn = []
titles_en=[]
links = []
director=[]
actors=[]
years=[]
nations=[]
types=[]
scores=[]
rating_nums=[]

fp = open('./douban_top250.csv','w',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(
    ['电影中文名','电影英文名','电影详情页链接','导演','演员','上映年份','国际','类型','评分','评分人数']
)
for i in range(0,226,25):
    url = f'https://movie.douban.com/top250?start={i}&filter='
    data={
        'start':i,
        'filter':' ',
    }
    response = requests.get(url, headers=headers, data=data)
    sleep(1)
    #print(response, status_code)
    #print(response, encoding)
    #print(response.text)
    html = response.text
    data = etree.HTML(html)
    li_list=data.xpath('//*
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值