python练习6.21

本文介绍了使用Python进行网络爬虫的基本步骤,通过requests库获取网页内容,然后利用BeautifulSoup解析HTML并提取所需信息。示例中展示了如何爬取并保存网络小说的一段文字,具体包括安装相关库、发送HTTP请求、解析HTML以及将内容写入文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是一个URL。
今天写一个简单的爬虫脚本,需要先安装requests库和Beautiful Soup库,安装好之后就可以进入实战了。
以爬小说为例

import requests
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)

在这里插入图片描述
可以看到我们已经获取到了html的数据,接下来把想要的东西提取出来,就需要用到Beautiful Soup库了

import requests
from bs4 import BeautifulSoup
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_='content')
    texts=texts[0].text.replace(' ','\r\n')
    print(texts)

在这里插入图片描述接下来就需要保存了

import requests
from bs4 import BeautifulSoup
if __name__ == "__main__":

    get = 'https://www.biquge7.com/book/486/7.html'
    req = requests.get(url=get)
    print(req.text)
    html = req.text
    bf = BeautifulSoup(html)
    texts = bf.find_all('div', class_='content')
    texts=texts[0].text.replace(' ','\r\n')
    print(texts)
    file = open("D:\\爬虫\\book.txt",'w',encoding='utf-8')
    file.write(texts)
    file.close()

file = open("D:\\爬虫\\book.txt",'w',encoding='utf-8')打开爬虫文件夹里的book.txt,w是如果没有该文件就创建一个,最后得到文件
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值