python爬取小说并下载

博主因找不到小说《仙魔同修》的下载资源,决定自行编写Python爬虫来抓取网络上的小说章节。利用BeautifulSoup和requests库,首先爬取小说目录,然后设计函数下载每个章节内容,以GBK编码存储。完整代码已上传至GitHub,供有需要的人参考。

    本人喜欢看小说,书龄也很大了,一些主流的书看完了,现在在看一本书,叫《仙魔同修》,作者叫流浪。但有另一本书和他同名,并且名气比它大,所以网上的很多下载资源都是这本书。我想下载下载看,但在网上没有找到资源,所以我想自己动手写一个爬虫,把这本书下载下来。

  我们所用的库主要有两个:BeautifulSoup和requests 。前者是从爬取下来的HTML文档中提起自己想要的内容,后者负责将HTML爬取下来。

  思路是这样的:先把目录上的各个章节的目录给爬取下来,保存为一个字典,然后写一个下载文章内容的函数,将所有章节的链接传到这个函数。

  我们分两段来写这段代码,首先是爬取目录的链接,其次是下载文章内容。

  爬取目录链接

if __name__=="__main__":    
    url=r"http://www.biqule.com/book_71986/"
    html=requests.get(url)
    html.encoding = 'GBK'#中文
    soup=BeautifulSoup(html.text)
    s2=soup.find_all("dd")
    dic={}
    for i in s2:
        if i.string:
            dic[i.string]=url+i.a["href"]
    #        print (i.string)
    #        print (i.a["href"])
    for i in dic.keys():
        readbook(dic[i],i)
这里要注意乱码问题:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值