BS4爬取小说内容

利用Beautiful Soup4和requests库来爬取小说内容:
使用bs4的CSS选择器时要根据对应网页的标签内容而定。

# *-* coding:utf-8 *-*
# 爬取 落霞小说网-<余庆年>
from bs4 import BeautifulSoup
import requests
html = requests.get('https://www.luoxia.com/qing/')
soup = BeautifulSoup(html.text, 'html.parser')
chapters = soup.select("div ul li a")
count = 0
for chapter in chapters:
    print(chapter.string)
    count += 1
    if 5 == count:          # 爬取5章
        break
    novel = requests.get(chapter['href'])               # 获得对应章节的html代码
    newSoup = BeautifulSoup(novel.text, 'html.parser')
    with open('novel.txt', 'a+', encoding='utf-8') as f:
        print(chapter.string + '\n', file=f)
        words = newSoup.select("div#nr1 p")             # 爬取小说文本
        for word in words:
            if word.string != None:         # 如果有内容才写入文件
                print(word.string, file=f)
        print('-------------------------------------\n', file=f)

部分输出:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值