Requests:爬取豆瓣排名前250的电影名称

本文介绍了如何利用Requests库获取豆瓣电影Top250的HTML内容,包括理解r.text、r.encoding、r.status_code和r.content的用途,以及r.json在解析JSON数据中的作用。
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 读取豆瓣TOP250的电影名
def get_movies():
    # 请求头
    headers = {
        'UserAgent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
    title_list = []
    for i in range(0,10):
        link='https://movie.douban.com/top250?start='+str(i*25)
        r=requests.get(link,headers=headers,timeout=10)
        print(str(i+1)+'页面响应码状态:',r.status_code)

        soup=BeautifulSoup(r.text,'lxml')
        movies_titles =soup.find_all('div',class_='hd')
        for each in movies_titles:
            getTitle=each.a.span.text.strip()#获取电影名称
            print(getTitle)
            title_list.append(getTitle)
    return title_list
movies=get_movies()
#将获取的数据转存为CSV文件
name=['movies_name']
test=pd.DataFrame(columns=name,data=movies)
test.to_csv('e:/movies.csv',encoding="gbk")
#将获取的数据存在本地的Txt文件中
# with open('movies.txt','w',encoding='utf-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值