爬虫的简单实验

本文介绍了一个Python爬虫实验,详细讲述了如何爬取并保存豆瓣最近热映电影的信息到txt文件。通过使用requests库和etree进行HTML解析,设置User-Agent和Referer来避免403错误,最终成功获取并存储了电影数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实验:爬取豆瓣最近热映的电影信息保存到txt文件中

首先导入requests库:

import requests

导入etree:
etree中有两个常用的方法:etree.HTML()和etree.tostrint()。
其中etree.HTML()方法可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。作为_Element对象,可以方便的使用getparent()、remove()、xpath()等方法。(更加常用于网页爬虫实例中)
etree.tostrint()方法用来将_Element对象转换成字符串

from lxml import etree

获取浏览器的User-Agent和Referer:
我的是使用Google chrome浏览器,User-Agent是固定的,Referer就是你所要爬取的网页网址

User-Agent的目的:为了防止出现403的错误,一般都会首先设置一下请求头
Referer设置作用:将这个http请求发给服务器后,如果服务器要求必须是某个地址或者某几个地址才能访问,而你发送的referer不符合他的要求,就会拦截或者跳转到他要求的地址,然后再通过这个地址进行访问。

headers = {
   
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50",
    'Referer' : "https://movie.douban.com/",
    
}

一般获取方法:在需要爬取的页面 右键–>检查–>工具栏Network–>找到header选项,下滑到底部即可获取referer和User-Agent:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值