今天带来的是爬取漫画网站上的漫画信息及其链接
这次会用到bs4,也就是Beautiful Soup
我们先介绍一下**Beautiful Soup**:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
对象种类可以归纳为四种:
- Tag
- Navigable String
- Beautiful Soup
(Beautiful Soup对象表示的是一个文档的全部内容) - Comment
在这里介绍一下,用bs4获取所需内容的一些方法
- soup.a
通过点属性获取当前名字的第一个Tag - soup.find_all(‘a’)
获取所有的a标签
这里还要区分一下find() 和 find_all()
- find()
函数只返回第一个所要查找的节点标签的类型 - find_all()
函数以列表的形式返回所有要查找的节点标签的类型
好了,接下来直接上代码
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = 'https://manhua.dmzj.com/'
def get_page(finallyurl):
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537