教大家一个简简单单爬虫小代码

最新推荐文章于 2025-03-27 16:21:50 发布

我拉不拉

最新推荐文章于 2025-03-27 16:21:50 发布

阅读量987

点赞数 8

文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/2301_80652108/article/details/140828525

版权

一、在这个信息化时代，“数据”也成为了一种富有价值的“商品”，越来越多的朋友开始学习爬虫，今天给大家分享一个简单的爬虫入门小代码。

二、工具：python+pycharm

三、操作步骤：

步骤一导入相关的库：

方法一在pycharm中创建python项目，然后在pycharm终端依次输入

pip install requests
pip install pandas

就会下载以上两个库

步骤二编写代码：

方法二导入以上的库，用requests请求相关网站，并进行判断是否请求成功，然后用re解析检索获取你想要的信息。

注：不知道re解析的朋友可以先去了解一下，还有bs和xpath解析，他们的用途功能是一样的，但后两者要简单一些。

步骤三：将所写代码用列表存储，以便后面以excel表格形式存储

步骤四：将数据保存到Excel中，最后关闭请求。

代码如下：代码domin后面是需要访问的网站，代码中的正则表达式只是个示范，具体要根据你要访问的网页源代码决定，这里只是给友友们提供个案例。

import requests
import re
import pandas as pd

#引号中输入要访问的网址
domain = ""
resp = requests.get(domain)

# 确保请求成功
if resp.status_code == 200:
    text = resp.text

    # 使用正则表达式提取数据
    pattern = r'<div class="item-content pt-1">.*?<div class="col px-0 d-flex align-items-center">.*?<h4>(.*?)</h4>.*?</div>.*?<div class="car-item-complain">.*?<span>投诉指数</span>.*?<span>(.*?)</span>.*?</div>.*?<p class="lm-3">(.*?)</p>.*?</div>'
    matches = re.finditer(pattern, text, re.DOTALL)

    # 检查是否有匹配项
    if not matches:
        print("没有找到匹配项，请检查正则表达式和网页内容。")
    else:
        # 将提取的数据转换为列表
        data_list = [(match.group(1).strip(), match.group(2).strip(), match.group(3).strip()) for match in matches]

        # 创建DataFrame
        df = pd.DataFrame(data_list, columns=['车型', '投诉指数', '典型问题'])

        # 打印 DataFrame 检查数据
        print(df)

        # 保存到Excel文件
        df.to_excel('car_complaints1.xlsx', index=False, engine='openpyxl')

    # 关闭响应
    resp.close()
else:
    print("请求失败，状态码：", resp.status_code)

注：作为一个入门简单小代码，这个代码只对一些简单的网站有用，对一些有反爬、隐藏数据等网站没有用，就当是看看爬虫是什么样啦