python爬取网文存入txt文件

本文介绍了如何使用Python的requests和BeautifulSoup库爬取诗词名句网上的《水浒传》内容,并将其存储为TXT文件。详细步骤包括引入库、数据请求、数据解析和数据存储。通过示例代码展示了爬虫的实现过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、网络爬虫是什么?

百度百科给出的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

本文以爬取诗词名句网的<<水浒传>>为例

二、使用步骤

1.引入库

requests是python中一款基于网络请求的模块,功能非常强大,简单便捷,,效率极高,作用是模拟浏览器请求。

requests爬虫过程:
1.指定url
2.发起请求
3.获得响应数据
4.数据解析
5.持久化存储

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能,作用是解析数据。
库的安装:
pip install requests
pip install bs4
代码如下(示例):

import  requests

from bs4 import BeautifulSoup

2.数据请求

在这里插入图片描述
首先在浏览器进入此网址,右键检查或者快捷键F12,找到网络,即network,博主的谷歌浏览器都汉化了,F5,即出现此页面。
在这里插入图片描述
请求网址即需要爬取的网址,请求方法是get,所有之后用的是requests.get请求,状态码是200说明网页正常,滚到底可以看到user-agent,不同电脑不同,所有不能盲目复制。

代码如下(示例):

#诗词名句网
url = 'https://www.shicimingju.com/book/shuihuzhuan.html'
#U-A伪装
headers ={
   
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
#请求响应
response = requests.get(url=url,headers
### 修改Nginx Content-Security-Policy配置以确保图片正常显示 当遇到Nginx配置`Content-Security-Policy`后图片无法显示的情况时,通常是因为CSP策略阻止了来自特定源的资源加载。为了使图片能够正常显示,在定义`default-src`指令的同时还需要指定允许加载图像的具体来源。 如果仅设置了`default-src 'self'`而未特别指明其他规则,则只有同域下的资源可以被加载,这可能导致外部链接或其他子路径中的图片不显示。因此,应该增加针对图片资源(`img-src`)更细致的规定[^2]。 对于希望保持严格的安全设置同时又不影响图片展示的情形,可以在现有的基础上添加如下所示的内容到HTTP块内: ```nginx add_header Content-Security-Policy "default-src 'self'; img-src 'self' https://example.com; upgrade-insecure-requests;"; ``` 上述配置意味着除了本域名外,还允许从`https://example.com`获取图片资源,并开启自动将HTTP请求升级为HTTPS的功能。当然,这里的`https://example.com`应当替换为实际提供图片服务的地址或多个可信站点之间用空格分隔开来的列表形式[^1]。 另外需要注意的是,若网站本身存在通过相对URL引用本地文件夹内的静态资源(如`/images/photo.jpg`),那么只需保留`default-src 'self'`即可满足需求;但如果涉及到跨域资源共享(CORS),则需进一步调整相应的头信息来适应具体的应用场景。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值