爬虫之爬取古诗文网站

最新推荐文章于 2024-12-07 15:22:26 发布

原创

最新推荐文章于 2024-12-07 15:22:26 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Python爬虫技术爬取古诗文网站的数据，包括诗词作者、朝代和诗词内容。通过实例详细讲解了请求网页、解析HTML、处理反爬策略等步骤，帮助读者掌握网络爬虫的基本技巧。

import pandas as pd
import urllib.parse
import urllib.request
from lxml import etree
import requests
import re
import time
import os
import random


def get_zhushi_info(url):
    #urls='https://so.gushiwen.org/shiwen2017/ajaxshiwencont.aspx?id=45c396367f59&value=zhu'
    proxy = random.choice(proxy_list)
    header = random.choice(spider_header)
    urlhandle = urllib.request.ProxyHandler({'http': proxy})
    opener = urllib.request.build_opener(urlhandle)
    urllib.request.install_opener(opener)

    req = urllib.request.Request(url)
    req.add_header('User-Agent', header)
    author_poem = []
    response_result = urllib.request.urlopen(req).read()

    html = response_result.decode('utf-8')
    html = etree.HTML(html)

    title = html.xpath(
        '//div[@class="main3"]/div[@class="left"]/div[@class="sons"]/div[@class="cont"]/h1/span/b/text()')
    author=html.xpath('string(//div[@class="main3"]/div[@class="left"]/div[@class="sons"]/div[@class="cont"]