网络爬虫

最新推荐文章于 2025-06-10 16:32:52 发布

糖醋_诗酒

最新推荐文章于 2025-06-10 16:32:52 发布

阅读量958

点赞数 1

分类专栏：软件测试技术及工具文章标签：爬虫 oracle 数据库

本文链接：https://blog.youkuaiyun.com/m0_62780716/article/details/146508956

版权

软件测试技术及工具专栏收录该内容

8 篇文章

订阅专栏

A. 流程

确定目标：明确要抓取的网页和内容
发送请求：通过HTTP/HTTPS协议向目标网站发送请求
接收响应：获取网站返回的HTML、JSON等数据
解析数据：从响应中提取所需的信息
存储数据：将提取的数据保存到文件、数据库等存储介质中

B. 基础示例

import requests
from bs4 import BeautifulSoup

# 目标URL
url = 'http://example.com'

# 发送GET请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取标题
    title = soup.find('title').get_text()
    print('网页标题：', title)
    
    # 提取所有段落文本
    paragraphs = soup.find_all('p')
    for p in paragraphs:
        print(p.get_text())
else:
    print('请求失败，状态码：', response.status_code)

关注博主即可阅读全文