python爬虫——爬取起点中文网作品信息

本文介绍了一种使用Python爬取起点中文网小说信息的方法,包括作品名、作者、类型、状态及简介等,并详细讲解了如何利用正则表达式抓取数据,以及如何通过代理IP和User-Agent避免被网站屏蔽。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先打开起点中文网
这里写图片描述
点开红圈内的全部作品选项,本博客爬取这里面的作品信息。
这里写图片描述
接下来爬取所有作品信息,注意,不仅仅只是该面的所有作品信息,而是全部作品信息。
网页下面有跳转其他页的选项。
我们需要找到网址规律,用来编写一个自动遍历所有页面网址的程序。
开始进来是这样的网址
https://www.qidian.com/all
但是点击下面的跳页选项中的1,会发现变成这样子了。
https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=1
这里对URL进行了隐藏伪装。再看其他页面的网址,这规律轻轻松松就能找到。
页面网址固定部分是https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=
唯一变化的是page的参数,页数就是参数。
通过改变页数,就能遍历不同网页里的作品信息。

download主函数

把爬取到的信息存入csv文件中,爬取的信息为:作品、作者、类型、状态、简介。
代码如下:

import csv


def download(filename, pages=1):
    # 这里是固定部分的URL
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='

    fileheader = ['作品', '作者', '类型', '状态', '简介']
    with open(filename, 'w', newline='', encoding='gb18030') as f:
        csv_writer = csv.writer(f)
        # 把fileheader的内容写入csv文件中
        csv_writer.writerow(fileheader)

        # 开始遍历每个网页,爬取作品信息
        for page in range(1, pages + 1):
            page_url = url + str(page)
            # 用find_contents函数爬取当前网页的作品信息
            contents = find_contents(page_url)
            # 把contents的内容通过save_contents函数存入csv文件中
            save_contents(contents)

download是爬虫主函数,其中用到的find_contents和save_contents函数还没有定义。

save_contents函数

该函数的作用是把爬取的一个网页的作品信息列表存进指定的CSV文件中。

def save_contents(contents, writer):
    # 从contents中取出一个作品信息content,写入csv文件中
    for content in contents:
        writer.writerow(content)

find_contents函数

该函数是特别重要的函数,运用正则表达式来爬去网页的作品信息。
需要额外添加两个库。

import urllib.request
import re

通过鼠标移到想要的信息上,右击找打检查审查元素选项,找到关键代码,组建严格的正则表达式。
代码如下:

def find_contents(url):
    # 打开网页,获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents = re.findall(reg, html)

    return contents

然后结合以上代码,就可以爬取信息,但是本身还有不少缺陷,这只是一个最初的爬虫。
首先修改一下find_contents函数
返回的数据,简介没有去除空格,类型也需要稍加修改。
代码如下:

def find_contents(url):
    # 打开网页,获取网站反应
    response = urllib.request.urlopen(url)
    # 读取网页源码
    html = response.read().decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type1 = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    # 新增一个类型
    book_type2 = r'<a class="go-sub-type" data-typeid="\d*?" data-subtypeid="\d*?" href="javascript:" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
        r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents_list = re.findall(reg, html)
    contents = []

    # 遍历每一个作品信息,进行修改
    for content in contents_list:
        content = list(content)
        new_content = content[:2]
        new_content.append(content[2] + '-' + content[3])
        new_content.append(content[4])
        new_content.append(content[5].strip())
        contents.append(new_content)

    return contents

改进程序

代码差不多了,可以直接运行程序查看效果,但是接着就会发现,爬虫爬取频繁了,网页会被禁止访问,因为网站会有防止爬虫的功能。
那么我们需要加入几个代理ip和用户代理(User-Agent)。
那么从何处改进呢?
首先要理解代理ip和用户代理,我们需要用他们来打开指定的网页。故而在打开网页时就需要调用他们。
打开网址函数在find_contents函数中使用到,所以我们把find_contents函数改进下。我们把代开网址与正则表达式找信息这两块操作分成两个函数来写。

新增一个open_url函数

该函数作用是,(用代理ip和用户代理)打开网址,返回网页源码信息。

注:自己的用户代理可以在浏览器地址栏中输入javascript:alert(navigator.userAgent)查看。
注:免费的代理ip可以网上查找。
也可以只用一个自己的用户代理,但是为了保险,用了多个用户代理。

首先需要新增一个模块

import random

open_url函数如下:

def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

注意,程序中的代理ip和用户代理需要自己修改,本博主的可能已经过时。
至于find_contents只需要稍微修改一番即可。
把其中的:

response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

改为:

html = open_url(url).decode('utf-8')

程序代码

import urllib.request
import re
import csv
import random

# 打开网页
def open_url(url):
    # 代理ip列表
    proxy_list = ['219.138.58.114:3128', '61.135.217.7:80', '101.201.79.172:808', '122.114.31.177:808']
    # 用户代理列表
    user_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
                 'User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
                 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16']

    index = random.randint(0, 3)
    # 使用代理ip的必要函数
    proxy_support = urllib.request.ProxyHandler({'http': proxy_list[index]})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)
    # 添加用户代理
    opener.addheaders = [('User-Agent', user_list[index])]
    response = urllib.request.urlopen(url)
    html = response.read()

    return html

# 运用正则表达式提出作品信息
def find_contents(url):
    html = open_url(url).decode('utf-8')

    # 编写正则表达式
    book_name = r'<a href=".*?" target="_blank" data-eid=".*?" data-bid="\d*?">(.*?)</a>'
    book_author = r'<a class="name" href=".*?" data-eid=".*?" target="_blank">(.*?)</a>'
    book_type1 = r'<a href=".*?" target="_blank" data-eid=".*?">(.*?)</a>'
    # 新增一个类型
    book_type2 = r'<a class="go-sub-type" data-typeid="\d*?" data-subtypeid="\d*?" href="javascript:" data-eid=".*?">(.*?)</a>'
    book_state = r'<span >(.*?)</span>'
    book_intro = r'<p class="intro">(.*?)</p>'

    informations = book_name + r'.*?' + book_author + r'.*?' + book_type1 + \
        r'.*?' + book_type2 + r'.*?' + book_state + r'.*?' + book_intro
    # 返回一个正则表达式对象
    reg = re.compile(informations, re.S)
    # 开始查找所有信息
    contents_list = re.findall(reg, html)
    contents = []

    # 遍历每一个作品信息,进行修改
    for content in contents_list:
        content = list(content)
        new_content = content[:2]
        new_content.append(content[2] + '-' + content[3])
        new_content.append(content[4])
        new_content.append(content[5].strip())
        contents.append(new_content)

    return contents

# 保存作品信息
def save_contents(contents, writer):
    # 从contents中取出一个作品信息content,写入csv文件中
    for content in contents:
        writer.writerow(content)


# 主函数
def download(filename, pages=1):
    # 这里是固定部分的URL
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='

    fileheader = ['作品', '作者', '类型', '状态', '简介']
    with open(filename, 'w', newline='', encoding='gb18030') as f:
        csv_writer = csv.writer(f)
        # 把fileheader的内容写入csv文件中
        csv_writer.writerow(fileheader)

        # 开始遍历每个网页,爬取作品信息
        for page in range(1, pages + 1):
            page_url = url + str(page)
            # 用find_contents函数爬取当前网页的作品信息
            contents = find_contents(page_url)
            # 把contents的内容通过save_contents函数存入csv文件中
            save_contents(contents, csv_writer)


if __name__ == '__main__':
    download('test.csv', 10)

### 使用Python编写爬虫程序抓取起点中文网小说数据 为了实现这一目标,可以遵循以下方法论并使用特定工具和技术: #### 工具准备 - **Requests库**:用于发送HTTP请求,获取网页内容。这使得能够轻松访问网络资源,并处理响应中的各种情况[^1]。 ```python import requests from bs4 import BeautifulSoup ``` - **BeautifulSoup库**:负责解析HTML文档,定位所需信息的位置。它提供了简洁的方法来遍历DOM树结构,从而简化了数据抽取过程[^3]。 #### 获取页面内容 构建一个函数`get_page_content(url)`,其接收URL参数并通过`requests.get()`发起GET请求获得指定页面的内容。需要注意的是,在实际操作之前应当阅读目标站点的服务条款,确保行为合法合规。 ```python def get_page_content(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: raise Exception(f"Failed to load page {url}") ``` #### 解析与提取数据 定义另一个辅助函数`parse_novel_data(html)`,传入由上一步骤得到的HTML字符串作为输入。利用`BeautifulSoup`创建soup对象后,可以根据具体的标签属性筛选出感兴趣的部分——比如章节列表链接、标题等重要字段。 ```python def parse_novel_data(html): soup = BeautifulSoup(html, "html.parser") novel_title = soup.find('h1').text.strip() chapter_links = [] chapters_div = soup.select_one("#chapter-list") # 假定章节位于id为chapter-list下的div内 for a_tag in chapters_div.find_all('a', href=True): link = f"https://www.qidian.com{a_tag['href']}" title = a_tag.text.strip() chapter_links.append((title, link)) return {"novel": novel_title, "chapters": chapter_links} ``` #### 存储结果 最后,设计存储机制保存所获资料至本地磁盘或其他持久化介质中。这里简单示范将每章文字写入单独TXT文件的方式。 ```python import os def save_chapter_to_file(chapter_info, output_dir="./output"): filename = os.path.join(output_dir, chapter_info["title"] + ".txt") with open(filename, mode='w', encoding="utf8") as file_obj: file_obj.write(chapter_info["content"]) ``` 上述代码片段展示了基本框架的设计思路;然而,在真实环境中还需要考虑异常处理、反爬措施规避等问题。此外,对于更复杂的场景可能涉及到登录态保持、动态加载内容模拟浏览器交互等情况,则需引入Selenium这样的自动化测试工具配合工作。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值