Python爬虫案例:js解密 爬取漫画

本文介绍如何使用Python爬虫针对特定漫画ID,通过审查元素找到章节链接所在的ol标签,抓取所有a链接以获取漫画的全部章节。接着,详细阐述如何请求每个章节链接以获取详细页面信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本次我们是通过漫画的id进行漫画爬取,所以我们不需要再做搜索的那种形式了

通过审查元素我们可以发现,所有的章节链接都是通过一个ol的标签进行包裹,所以我们只要获取要页面中的一个ol标签下,所有的a链接就可以成功的获取到所有的章节链接了。

代码如下:

新手学习,Python 教程/工具/方法/解疑+V:itz992
#获取漫画的章节地址
def get_chapter_info(self):
    chapter_info = {}
    url = 'http://ac.qq.com/Comic/ComicInfo/id/{}'.format(self.comic_id)
    html_text = self.get_html(url)
    html = self.parser(html_text) # 找到所有章节列表
    ol = html.find('ol')[0]
chapters = ol.find('a')
        index = 0 for chapter in chapters:
            title = chapter.attrs['title']
            link = parse.urljoin(TxComic.COMIC_HOST, chapter.attrs['href'])
            key = '第{}章'.format(index)
            chapter_info[key] = {'title': title, 'link': link}
        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值