python练习6.21

最新推荐文章于 2024-04-28 12:29:00 发布

south_1

最新推荐文章于 2024-04-28 12:29:00 发布

阅读量351

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.youkuaiyun.com/doraemon12345/article/details/118095555

版权

python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了使用Python进行网络爬虫的基本步骤，通过requests库获取网页内容，然后利用BeautifulSoup解析HTML并提取所需信息。示例中展示了如何爬取并保存网络小说的一段文字，具体包括安装相关库、发送HTTP请求、解析HTML以及将内容写入文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网络爬虫，也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。
今天写一个简单的爬虫脚本，需要先安装requests库和Beautiful Soup库，安装好之后就可以进入实战了。
以爬小说为例

import requests
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)

在这里插入图片描述
可以看到我们已经获取到了html的数据，接下来把想要的东西提取出来，就需要用到Beautiful Soup库了

import requests
from bs4 import BeautifulSoup
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_='content')
    texts=texts[0].text.replace(' ','\r\n')
    print(texts)

在这里插入图片描述接下来就需要保存了

import requests
from bs4 import BeautifulSoup
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_='content')
    texts=texts[0].text.replace(' ','\r\n')
    print(texts)
    file = open("D:\\爬虫\\book.txt",'w',encoding='utf-8')
    file.write(texts)
    file.close()

file = open("D:\\爬虫\\book.txt",'w',encoding='utf-8')打开爬虫文件夹里的book.txt，w是如果没有该文件就创建一个，最后得到文件
在这里插入图片描述