爬取起点免费小说

该博客介绍了如何使用Python的requests和pyquery库爬取起点免费小说的详细步骤。主要内容包括获取每个章节的URL列表,解析章节内容,并在特定环境下运行代码。作者强调需要在F盘运行代码,如果没有则需要修改路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

requets请求,pyquery解析,os创建小说文件夹,re解析子url。

电脑配置:

    需要安装requests、pyquery库

    需要F:盘,没有的可以将代码中的F://改成自己有的盘

    运行软件:Sublime Text3

    运行环境:Anaconda3

 

主要思路:

    get_url():得到每一个章节的url,返回一个url列表

    parse_url()解析url章节

    main()遍历所有章节

其中url_main是小说链接

import requests
from pyquery import PyQuery as pq
import re
import os

book_name=''
chapter=''
url_main='https://book.qidian.com/info/1013439092'
url_main+='#Catalog'
#传入主url,得到一个url列表,列表是每个章节目录的url
def get_url():
	global book_name
	global url_main
	url_list=[]
	reponse=requests.get(url_main)
	html=reponse.text
	doc=pq(html)
	link=str(doc('.volume .cf li a'))
	book_name=str(doc('.book-info h1 em').text())
	os.mkdir("F://"+book_name)
	pattern=re.compile('href="(.*?)".*?target',re.S)
	results=re.findall(pattern,link)
	for result in results:
		url_list.append(result)
	return url_list

#解析每个章节,得到里面的内容
def parse_url(url,name='xy'):
	global chapter
	response=requests.get(url)
	doc=pq(response.text)
	content=doc('p')
	chapter=doc('.j_chapterName').text()
	result=content.text()
	with open("F://{0}//{1}.txt".format(book_name,str(name)),'w+',encoding='utf-8') as f:
		f.write(result)
		print('正在录入: %s' % chapter)

#循环遍历
def main():
	global chapter
	url_list=get_url()
	for url in url_list:
		parse_url('http:'+url,chapter)

if __name__=='__main__':
	main()

 第一本书:

第二本书:

保存结果:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值