Python爬虫实战——反爬机制的解决策略【阿里】

最新推荐文章于 2024-11-23 14:01:41 发布

WoLykos

最新推荐文章于 2024-11-23 14:01:41 发布

阅读量3.5k

点赞数 2

分类专栏： Python爬虫 # 网络库之urllib+ requests # 解析库之lxml

本文链接：https://blog.youkuaiyun.com/WoLykos/article/details/103684209

版权

这篇博客介绍了Python爬虫在应对阿里网站反爬机制时的策略，包括URL分析、XPath路径匹配以及编码问题的解决。作者通过实践分享了在抓取优快云热门文章过程中遇到的问题，如非预期内容的获取，并最终发现是由于阿里反爬机制导致。文章提供了完整的代码示例，帮助读者理解如何处理类似情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这一次呢，让我们来试一下“优快云热门文章的抓取”。

话不多说，让我们直接进入CSND官网。
（其实是因为我被阿里的反爬磨到没脾气，不想说话……）

一、URL分析

输入“Python”并点击搜索：
在这里插入图片描述
便得到了所有关于“Python”的热门博客，包括 [ 标题，网址、阅读数 ] 等等，我们的任务，就是爬取这些博客。

分析一下上图中曲线处的URL，不难发现：p为页数，q为关键字。

二、XPath路径

打开开发者模式，匹配我们所需信息的标签：

通过//dd[@class='author-time']/span[@class='link']/a/@href匹配各个博客的URL地址；
通过//h1[@class='title-article']/text()匹配各个博客的标题。

注意：
对于XPath路径有疑问的话，可复习《XPath语法的学习与lxml模块的使用》。

三、代码实现

定制输入框：

keyword = input("请输入关键词：")
pn_start = int(input("起始页："))
pn_end = int(input("终止页："))

确定URL：

# 注意要+1
for pn in range(pn_start, pn_end+1):
    url = "https://so.youkuaiyun.com/so/search/s.do?p=%s&q=%s&t=blog&viparticle=&domain=&o=&s=&u=&l=&f=&rbg=0" % (pn, keyword)

构建request对象：

# 返回request对象
def getRequest(url):
    return ur.Request(
        url=url,
        headers={
   
            'User-Agent': user_agent.get_user_agent_pc(),
        }
    )
    
for pn in range(pn_start, pn_end+1):
    url = "https://so.youkuaiyun.com/so/search/s.do?p=%s&q=%s&t=blog&viparticle=&domain=&o=&s=&u=&l=&f=&rbg=0"