bs4爬取漫画并写入TXT文档

本文介绍如何利用Beautiful Soup库爬取漫画网站的内容,并将其链接保存到TXT文档。讲解了Beautiful Soup的基本用法,包括通过Tag属性获取元素、find_all()与find()的区别,最后展示了代码及结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天带来的是爬取漫画网站上的漫画信息及其链接

这次会用到bs4,也就是Beautiful Soup
我们先介绍一下**Beautiful Soup**:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

对象种类可以归纳为四种:

  • Tag
  • Navigable String
  • Beautiful Soup
    (Beautiful Soup对象表示的是一个文档的全部内容)
  • Comment

在这里介绍一下,用bs4获取所需内容的一些方法

  • soup.a
    通过点属性获取当前名字的第一个Tag
  • soup.find_all(‘a’)
    获取所有的a标签

这里还要区分一下find()find_all()

  • find()
    函数只返回第一个所要查找的节点标签的类型
  • find_all()
    函数以列表的形式返回所有要查找的节点标签的类型

好了,接下来直接上代码

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests

url = 'https://manhua.dmzj.com/'
def get_page(finallyurl):
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值