网络爬虫

A. 流程

  1. 确定目标:明确要抓取的网页和内容
  2. 发送请求:通过HTTP/HTTPS协议向目标网站发送请求
  3. 接收响应:获取网站返回的HTML、JSON等数据
  4. 解析数据:从响应中提取所需的信息
  5. 存储数据:将提取的数据保存到文件、数据库等存储介质中

B. 基础示例

import requests
from bs4 import BeautifulSoup

# 目标URL
url = 'http://example.com'

# 发送GET请求
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取标题
    title = soup.find('title').get_text()
    print('网页标题:', title)
    
    # 提取所有段落文本
    paragraphs = soup.find_all('p')
    for p in paragraphs:
        print(p.get_text())
else:
    print('请求失败,状态码:', response.status_code)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值