Python爬取小说

简介

Python爬虫爬取小说
目标网址http://www.jingcaiyuedu.com/book/91703.html
开发环境:win10 python3.6

import requests
import re

#下载一个网页
url = 'http://www.jingcaiyuedu.com/book/91703.html'

#模拟游览器发送http请求
response = requests.get(url)

#编码方式
response.encoding = 'utf-8'

#目标小说主页的网页源码
html = response.text

#小说名字
title = re.findall(r'<meta property="og:title" content="(.*?)"/>',html,re.S)[0]

#新建一个文件,保存小说内容
fb = open('%s.txt' % title, 'w', encoding='utf-8')

#获得每一章的信息(章节,url)
dl = re.findall(r'<dl class="panel-body panel-chapterlist">.*?</dl>',html,re.S)[1]
chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)

#循环每一个章节,分别下载
for chapter_info in chapter_info_list:
    chapter_url, chapter_title = chapter_info
    chapter_url = "http://www.jingcaiyuedu.com%s" % chapter_url
    print(chapter_url,chapter_title)

    #下载章节内容
    chapter_response = requests.get(chapter_url)
    chapter_response.encoding='uft-8'
    chapter_html = chapter_response.text

    #提取,章节内容
    chapter_content = re.findall(r'<div class="panel-body" id="htmlContent">.*?</div>',chapter_html,re.S)[0]

    #清洗数据
    chapter_content = chapter_content.replace(' ','')
    chapter_content = chapter_content.replace('&nbsp;','')
    chapter_content = chapter_content.replace('<br>','\n')
    chapter_content = chapter_content.replace('<br/>', '')
    chapter_content = chapter_content.replace('<p>', '')
    chapter_content = chapter_content.replace('</p>', '')
    chapter_content = chapter_content.replace('</div>', '')
    chapter_content = chapter_content.replace('<divclass="panel-body"id="htmlContent">', '')

    #持久化
    fb.write(chapter_title)
    fb.write(chapter_content)
    fb.write('\n\n')

    print(chapter_url)
标题SpringBoot智能在线预约挂号系统研究AI更换标题第1章引言介绍智能在线预约挂号系统的研究背景、意义、国内外研究现状及论文创新点。1.1研究背景与意义阐述智能在线预约挂号系统对提升医疗服务效率的重要性。1.2国内外研究现状分析国内外智能在线预约挂号系统的研究与应用情况。1.3研究方法及创新点概述本文采用的技术路线、研究方法及主要创新点。第2章相关理论总结智能在线预约挂号系统相关理论,包括系统架构、开发技术等。2.1系统架构设计理论介绍系统架构设计的基本原则和常用方法。2.2SpringBoot开发框架理论阐述SpringBoot框架的特点、优势及其在系统开发中的应用。2.3数据库设计与管理理论介绍数据库设计原则、数据模型及数据库管理系统。2.4网络安全与数据保护理论讨论网络安全威胁、数据保护技术及其在系统中的应用。第3章SpringBoot智能在线预约挂号系统设计详细介绍系统的设计方案,包括功能模块划分、数据库设计等。3.1系统功能模块设计划分系统功能模块,如用户管理、挂号管理、医生排班等。3.2数据库设计与实现设计数据库表结构,确定字段类型、主键及外键关系。3.3用户界面设计设计用户友好的界面,提升用户体验。3.4系统安全设计阐述系统安全策略,包括用户认证、数据加密等。第4章系统实现与测试介绍系统的实现过程,包括编码、测试及优化等。4.1系统编码实现采用SpringBoot框架进行系统编码实现。4.2系统测试方法介绍系统测试的方法、步骤及测试用例设计。4.3系统性能测试与分析对系统进行性能测试,分析测试结果并提出优化建议。4.4系统优化与改进根据测试结果对系统进行优化和改进,提升系统性能。第5章研究结果呈现系统实现后的效果,包括功能实现、性能提升等。5.1系统功能实现效果展示系统各功能模块的实现效果,如挂号成功界面等。5.2系统性能提升效果对比优化前后的系统性能
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值