爬虫实践---抓取小说网站

最新推荐文章于 2023-12-15 10:33:04 发布

锅巴QAQ

最新推荐文章于 2023-12-15 10:33:04 发布

阅读量1w

点赞数 3

分类专栏： Python爬虫文章标签：爬虫 python

本文链接：https://blog.youkuaiyun.com/Pit3369/article/details/76619230

版权

本文介绍了一个Python爬虫项目，用于抓取特定电子书网站的历史军事和完本小说。通过分析网页结构，提取小说标题和链接，并利用集合进行URL去重。对于每个小说，使用BeautifulSoup解析章节内容。尽管网站没有反爬虫技术，使得爬取过程相对简单，但作者指出这种单线程爬虫的效率较低，提出如何提高爬虫速度的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

电子书网站：

http://www.qu.la/paihangbang/

对网页进行分析可知，

 <div class="index_toplist mright mbottom">
            <div class="toptab" id="top_all_1">
                <span>玄幻奇幻排行</span>
<div class="index_toplist mright mbottom">
            <div class="toptab" id="top_all_2">
                <span>武侠仙侠排行</span>

<div class="index_toplist  mbottom">
            <div class="toptab" id="top_all_4">
                <span>历史军事排行</span>

<div class="index_toplist mbottom">
            <div class="toptab" id="top_all_8">
                <span>完本小说排行</span>

观察发现，历史军事和完本小说的时一致的，其余类别是一样的，所以进行分开处理。

每一个分类都是包裹在：

之中这种调理清晰的网站，大大方便了我们爬虫的编写

一个类别里，出现了排行榜上所有的小说：

<div class="index_toplist mright mbottom">
<div class="toptab" id="top_all_1">
<span>玄幻奇幻排行</span><div>
<div class="topbooks" id="con_o1g_1" style="display: block;">
<ul>
<li><span class="hits">05-06</span><span class="num">1.</span><a href="/book/168/" title="择天记" target="_blank">择天记</a></li>


                        <li><span class="hits">05-06</span><span class="num">2.</span><a href="/book/176/" title="大主宰" target="_blank">大主宰</a></li>


                <!--中间省略了不少 -->


                        <li><span class="hits">05-06</span><span class="num">3.</span><a href="/book/4140/" title="太古神王" target="_blank">太古神王</a></li>


                        <li><span class="hits">05-06</span><span class="num">4.</span><a href="/book/5094/"

最低0.47元/天解锁文章