Python 小说内容抓取

本文介绍了一个使用Python 2.7与PyCharm 2017.2的脚本,该脚本通过urllib2和BeautifulSoup库从指定网站抓取小说《华戚国》的内容,并将其保存为文本文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境 Python27 pycharm2017.2 

代码如下:


# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import urllib2
from bs4 import BeautifulSoup

if __name__ == '__main__':
    url = 'http://www.136book.com/huaqiangu/'
    head = {}
    head[
        'User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 ' \
                        '(KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'
    req = urllib2.Request(url, headers=head)
    response = urllib2.urlopen(req)
    html = response.read()
    soup = BeautifulSoup(html, 'lxml')
    soup_texts = soup.find('div', id='book_detail', class_='box1').find_next('div')
    # 打开文件
    f = open('D:/huaqianguo.txt', 'w')
    # 循环解析链接地址
    for link in soup_texts.ol.children:
        if link != '\n':
            download_url = link.a.get('href')
            download_req = urllib2.Request(download_url, headers=head)
            download_response = urllib2.urlopen(download_req)
            download_html = download_response.read()
            download_soup = BeautifulSoup(download_html, 'lxml')
            download_soup_texts = download_soup.find('div', id='content')
            # 抓取其中文本
            download_soup_texts = download_soup_texts.text
            # 写入章节标题
            f.write(link.text + '\n\n')
            # 写入章节内容
            f.write(download_soup_texts)
            f.write('\n\n')
    f.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值