Python爬虫初体验

最新推荐文章于 2025-02-14 17:56:55 发布

予,人乐后飘零

最新推荐文章于 2025-02-14 17:56:55 发布

阅读量260

点赞数

分类专栏： Python 文章标签： python 爬虫 web

本文链接：https://blog.youkuaiyun.com/qq_32535455/article/details/113713466

版权

Python 爬虫 requests 正则表达式网页链接

关键词由优快云通过智能技术生成

Python 专栏收录该内容

1 篇文章

订阅专栏

本文记录了一位作者初次尝试Python爬虫的经历，通过编写简单代码实现从用户输入的URL中抓取页面上的所有链接。代码中使用了requests和re库，展示了Python在爬虫领域的易用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬虫初体验

闲来无事,试着写一个小爬虫,功能是爬取一个网页上的url链接,话不多说上代码:

import requests #导入爬虫的库，不然调用不了爬虫的函数 需要pip install
import re

#提取所有的url
def Find(string):
    url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+/[a-z,A-Z,0-9,/,.]+', string)
    return url 

#获取页面内容
def Url(string):
    response = requests.get(string)  #生成一个response对象

    response.encoding = response.apparent_encoding
    if response.status_code == 200:
        return Find(response.text)
    else:
        return False

#获取用户输入的url开始爬取
string =input("请输入一个带http的url链接:")
result =Url(string)
if False == result:
    print("没有获取到信息")
else:
    print("爬取到的url链接有:")    
    print(result)