教大家一个简简单单爬虫小代码

一、在这个信息化时代,“数据”也成为了一种富有价值的“商品”,越来越多的朋友开始学习爬虫,今天给大家分享一个简单的爬虫入门小代码。

二、工具:python+pycharm

三、操作步骤:

步骤一  导入相关的库:

方法一  在pycharm中创建python项目,然后在pycharm终端依次输入

pip install requests
pip install pandas

就会下载以上两个库

步骤二   编写代码:

方法二   导入以上的库,用requests请求相关网站,并进行判断是否请求成功,然后用re解析检索获取你想要的信息。

注:不知道re解析的朋友可以先去了解一下,还有bs和xpath解析,他们的用途功能是一样的,但后两者要简单一些。

步骤三:将所写代码用列表存储,以便后面以excel表格形式存储

步骤四:将数据保存到Excel中,最后关闭请求。

代码如下:代码domin后面是需要访问的网站,代码中的正则表达式只是个示范,具体要根据你要访问的网页源代码决定,这里只是给友友们提供个案例。

import requests
import re
import pandas as pd

#引号中输入要访问的网址
domain = ""
resp = requests.get(domain)

# 确保请求成功
if resp.status_code == 200:
    text = resp.text

    # 使用正则表达式提取数据
    pattern = r'<div class="item-content pt-1">.*?<div class="col px-0 d-flex align-items-center">.*?<h4>(.*?)</h4>.*?</div>.*?<div class="car-item-complain">.*?<span>投诉指数</span>.*?<span>(.*?)</span>.*?</div>.*?<p class="lm-3">(.*?)</p>.*?</div>'
    matches = re.finditer(pattern, text, re.DOTALL)

    # 检查是否有匹配项
    if not matches:
        print("没有找到匹配项,请检查正则表达式和网页内容。")
    else:
        # 将提取的数据转换为列表
        data_list = [(match.group(1).strip(), match.group(2).strip(), match.group(3).strip()) for match in matches]

        # 创建DataFrame
        df = pd.DataFrame(data_list, columns=['车型', '投诉指数', '典型问题'])

        # 打印 DataFrame 检查数据
        print(df)

        # 保存到Excel文件
        df.to_excel('car_complaints1.xlsx', index=False, engine='openpyxl')

    # 关闭响应
    resp.close()
else:
    print("请求失败,状态码:", resp.status_code)

注:作为一个入门简单小代码,这个代码只对一些简单的网站有用,对一些有反爬、隐藏数据等网站没有用,就当是看看爬虫是什么样啦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值