python爬取网页详细教程,python爬取网页的代码

最新推荐文章于 2025-09-13 13:10:19 发布

原创

最新推荐文章于 2025-09-13 13:10:19 发布 · 1.1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#rpc

大家好，小编来为大家解答以下问题，python爬取网页数据步骤图解，python爬取网页数据存入excel，现在让我们一起来看看吧！

一、分析网页

在这里插入图片描述
以经典的爬取豆瓣电影 Top250 信息为例。每条电影信息在 ol class 为 grid_view 下的 li 标签里，获取到所有 li 标签的内容，然后遍历，就可以从中提取出每一条电影的信息python流星雨特效代码。

翻页查看url变化规律：

第1页：https://movie.douban.com/top250?start=0&filter=
第2页：https://movie.douban.com/top250?start=25&filter=
第3页：https://movie.douban.com/top250?start=50&filter=
第10页：https://movie.douban.com/top250?start=225&filter=

start参数控制翻页，start = 25 * （page - 1）
在这里插入图片描述

本文分别利用正则表达式、BeautifulSoup、PyQuery、Xpath来解析提取数据，并将豆瓣电影 Top250 信息保存到本地。

二、正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便地检查一个字符串是否与某种模式匹配，常用于数据清洗，也可以顺便用于爬虫，从网页源代码文本中匹配出我们想要的数据。

re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意：match和 search 是匹配一次；而 findall 匹配所有。
语法格式为：findall(string[, pos[, endpos]])
string : 待匹配的字符串；pos : 可选参数，指定字符串的起始位置，默认为 0；endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

示例如下：

import re
text = """
<div class="box picblock col3" style="width:186px;height:264px">
<img src2="http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26584_s.jpg" 123nfsjgnalt="山水风景摄影图片">
<a target="_blank" href="http://sc.chinaz.com/tupian/200509002684.htm"
<img src2="http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26518_s.jpg" enrberonbialt="山脉湖泊山水风景图片">
<a target="_blank" href="http://sc.chinaz.com/tupian/200509002684.htm"
<img src2="http://pic2.sc.chinaz.com/Files/pic/pic9/202006/apic26029_s.jpg" woenigoigniefnirneialt="旅游景点山水风景图片">
<a target="_blank" href="http://sc.chinaz.com/tupian/200509002684.htm"
"""

pattern = re.compile(r'\d+')  # 查找所有数字
result1 = pattern.findall('me 123 rich 456 money 1000000000000')
print(result1)
img_info = re.findall('<img src2="(.*?)" .*alt="(.*?)">', text)  # 匹配src2 alt里的内容

for src, alt in img_info:
    print(src, alt)
 
['123', '456', '1000000000000']
http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26584_s.jpg 山水风景摄影图片
http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26518_s.jpg 山脉湖泊山水风景图片
http://pic2.sc.chinaz.com/Files/pic/pic9/202006/apic26029_s.jpg 旅游景点山水风景图片

代码如下：

# -*- coding: UTF-8 -*-
"""
@Author  ：叶庭云
@公众号  ：修炼Python
@优快云    ：https://yetingyun.blog.youkuaiyun.com/
"""
import requests
import re
from pandas import DataFrame
from fake_useragent import UserAgent
import logging

# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')


def random_ua():
    headers = {
        "Accept-Encoding": "gzip",
        "Connection": "keep-alive",
        "User-Agent": ua.random
    }
    return headers


def scrape_html(url):
    resp = requests.get(url, headers=random_ua())
    # print(resp.status_code, type(resp.status_code))
    if resp.status_code == 200:
        return resp.text
    else:
        logging.info('请求网页失败')


def get_data(page):
    url = f"https://movie.douban.com/top250?start={25 * page}&filter="
    html_text = scrape_html(url)

最低0.47元/天解锁文章