爬虫注意事项

鱼鱼9901

于 2024-01-22 12:36:41 发布

阅读量887

点赞数 9

分类专栏： Python 文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/weixin_72100405/article/details/135745273

版权

Python 专栏收录该内容

28 篇文章

订阅专栏

本文介绍了如何使用Python的requests库获取网页内容，包括异常处理、设置超时时间、使用with语句确保资源关闭，以及通过正则表达式提取所需信息。同时，文章强调了爬虫过程中的限速以避免IP被封禁，以及文件存储的最佳实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

获取网页内容：

def getHTMLText(url):
    try:
        with requests.get(url, timeout=30, stream=False) as r: #打开网页后必须要手动关闭，或者像这样用with语句打开网页
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
    except:
        return " "

然后就使用正则匹配（在原网页摁F12）找到匹配内容

每次爬完一页内容以后记得要

time.sleep(30) #限速，防止ip被封

以及在存入内容的时候

tttt=f[:-2]
with open("/your_path/{}.txt".format(ttttt), "w", encoding="utf-8") as f:
    f.write(text)
#with open的语法里面，不可以用切片，比如ttttt就不可以是f[:-2]的形式存在，不然就会报错