利用BS爬取逐浪网多本小说

本文介绍了一个使用Python结合BeautifulSoup和正则表达式进行网页爬取的实例,重点展示了如何从小说网站自动获取小说目录及各章节内容,并通过编码技巧实现了对中文字符的有效处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(更新一下软件,手贱的没有保存原来的文件...)

学习BS之后,发现确实比正则有点强...但是在一些时候,他们两个同时运用效果更好。在爬取小说时候就体现出来了,对于BS来说直接调用文字标签就好,别的不说直接上代码。

#-*-coding:utf8-*-
#!/usr/bin/python
from bs4 import BeautifulSoup
import urllib
import urllib2
import re

def get_menu(url):

    user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0"
    headers = {'User-Agent':user_agent}
    req = urllib2.Request(url,headers = headers)
    page = urllib2.urlopen(req).read()
    soup = BeautifulSoup(page)
    novel = soup.find_all('title')[0].text.split('_')[0]     # 提取小说名
    menu = []
    all_text = soup.find_all('a',target="_blank")   # 提取记载有小说章节名和链接地址的模块
    regex=re.compile(ur'\u7b2c.+\u7ae0')          # 中文正则匹配第..章,去除不必要的链接
    for title in all_text:
        if re.findall(regex,title.text):
            name = title.text
            x = [name,title['href']]
            menu.append(x)       # 把记载有小说章节名和链接地址的列表插入列表中
    return menu,novel
 
def get_chapter(name,url):

    html=urllib2.urlopen(url).read()
    soup=BeautifulSoup(html)
    div=soup.find('div',class_='read-content')
    content=div.find_all('p')     # 提取小说正文
    return content



if __name__=="__main__":
    user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0"
    headers = {'User-Agent':user_agent}
    req = urllib2.Request("http://www.zhulang.com/",headers = headers)
    page = urllib2.urlopen(req).read()
    pattern = re.compile('<h3><a href="(.*?)" title=',re.S)
    result = re.findall(pattern,page)
    print result

    for k in result:
        menu,title=get_menu(k)
        # print title,str(len(menu))+'\n     Enter   \n'     # 输出获取到的小说名和章节数
        for i in menu:
            chapter=get_chapter(i[0],i[1])
            num=len(chapter)
            print k
        # def getTitle(self,page):
        #
        #     pattern = re.compile('<td><div calss="textl"><a href=.*?>(.*?)</a></div></td>',re.S)
        #     result = re.search(pattern,page)
        #     return result.group(1).strip()
        for i in range(0,num-1):

                print(chapter[i].get_text())

                # f = open('fileName.txt','a')


                # return result.group(1).strip()

                f = open('novel2.txt','a')
                f.write(chapter[i].get_text().encode('UTF-8'))
                f.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值