pandas数据处理-筛选数据

文章描述了一个关于如何通过Python脚本,利用pandas库处理大量云主机数据,找出未被使用的主机,并将其与人员信息进行匹配,以减少资源浪费的过程。作者通过读取文本文件、提取IP地址,然后与Excel表格中的数据进行筛选和整合,最终生成新的数据表格。

创作灵感:公司有几千台云主机,分配给公司几百个业务人员使用,但是呢有些人申请了他不用,导致资源严重浪费。我们从后台拉一下数据,有4百多台云主机未使用,我们要从我们登记的总表把人员部门名字和IP对应上。一个一个的搜的话,估计要几个小时,而且累手啊。因此有了一下创作灵感。
 

import pandas
import re

# 读取txt文件数据,保存到ip_txt_list列表
ip_txt_list = []
ip_list = []
password_list = []
path1 = r'C:\Users\Administrator\Desktop\虚拟机ip地址.txt'
with open(path1, 'rb') as r1:
    red_list = r1.readlines()

# 处理读取的txt文件数据,保存到ip_txt_list列表
for i in red_list:
    rstr = i.decode()
    r1 = rstr.strip()
    ip_txt_list.append(r1)

# 提取整理ip_txt_list列表中数据,保存到ip_list列表
for i in ip_txt_list:
    if i != '':
        ip1 = re.match('^10[.]18[.][0-9]{,3}[.][0-9]{,3}', i).group()
        ip_list.append(ip1)

# 读取表格
filename = r'C:\Users\Administrator\Desktop\虚拟机ip-1.xlsx'
df = pandas.read_excel(filename, sheet_name=0, usecols=['ip', '部门', '使用人'])
# 确认原始数据中不包含的IP数据,单独列出
screening_ip = []
not_include_ip = []

load_ip = list(df.get('ip'))
for i in ip_list:
    if i in load_ip:
        print(i)
        ip_index = ip_list.index(i)
        screening_ip.append(i)
    else:
        not_include_ip.append(i)

# 数据筛选
screening_df = df[df['ip'].isin(screening_ip)]
# 创建DataFrame对象
new_row = pandas.DataFrame({'ip地址': not_include_ip})
# 保存筛选数据,生成新的数据表格
with pandas.ExcelWriter(r'C:\Users\Administrator\Desktop\虚拟机ip-2.xlsx', engine='openpyxl', mode='w') as w:
    screening_df.to_excel(w, index=False, sheet_name='未登录企微ip')
    new_row.to_excel(w, index=False, sheet_name='未登记ip')
    print('保存成功')

### 介绍 Pandas DataFrame 数据结构 PandasPython 中用于数据操作和分析的核心库之一,其中最常用的数据结构是 **DataFrame**。DataFrame 可以看作是一个二维的表格型数据结构,类似于 Excel 表格或 SQL 数据库中的表,具有行和列的标签。这种结构非常适合处理现实世界中的结构化数据集,例如 CSV 文件、数据库表或时间序列数据。 使用 `type()` 函数可以查看数据的类型。当从 CSV 文件读取数据时,数据通常会以 DataFrame 的形式加载,其类型为 `<class 'pandas.core.frame.DataFrame'>` [^4]。 DataFrame 的基本特性包括: - 每一列可以存储不同的数据类型(如整数、浮点数、字符串等)。 - 支持带有标签的行索引和列名。 - 提供了强大的数据操作功能,包括数据筛选、聚合、合并和重塑。 ### 常用属性和方法 在操作 DataFrame 时,以下是一些常用的属性和方法: - **`df.columns`**:获取列名,返回一个 `Index` 对象,例如 `Index(['Name', 'Age', 'Score'])` [^5]。 - **`df.index`**:获取行索引,返回一个 `RangeIndex` 或其他索引类型对象,例如 `RangeIndex(start=0, stop=3)` [^5]。 - **`df.shape`**:获取 DataFrame 的形状,返回一个元组,表示行数和列数,例如 `(3, 3)` 。 - **`df.dtypes`**:获取每列的数据类型,返回一个 Series,例如 `Name: object, Age: int64, Score: float64` [^5]。 - **`df.head(n)`**:显示前 `n` 行数据,常用于快速查看数据集的前几行,默认显示前 5 行 [^5]。 - **`df.describe()`**:生成统计摘要,包括每列的均值、标准差、最小值、最大值以及四分位数等统计信息 。 ### 数据清洗与处理 DataFrame 在数据清洗中发挥着重要作用。数据清洗包括处理缺失值、异常值、重复值和进行类型转换等,以确保数据质量并支持后续分析 [^2]。 #### 处理缺失值 可以使用 `df.isnull()` 或 `df.isna()` 来检测缺失值,并通过 `df.dropna()` 或 `df.fillna()` 方法进行处理: - **`df.dropna()`**:删除包含缺失值的行或列。 - **`df.fillna(value)`**:用指定的值(如 0 或平均值)填充缺失值。 #### 处理重复值 使用 `df.duplicated()` 可以检测重复行,而 `df.drop_duplicates()` 可以删除重复数据。 #### 类型转换 可以通过 `df.astype('type')` 将某一列转换为指定的数据类型,例如将字符串转换为整数。 #### 异常值检测 可以使用 `df.describe()` 查看数据的统计摘要,从而识别可能的异常值。此外,也可以通过条件筛选(如 `df[df['column'] > threshold]`)来检测异常值。 ### DataFrame 运算 Pandas 支持对 DataFrame 进行各种运算,包括算术运算、逻辑运算和统计运算。在进行运算时,Pandas 会自动对齐索引。例如,在两个 DataFrame 相加时,只有当索引和列名都匹配时,才会执行加法操作: ```python result = df1 + df2 ``` 此操作将确保只有在行和列都匹配的情况下才会执行加法 [^3]。 ### 总结 Pandas 的 DataFrame 是数据科学和数据分析中的重要工具,提供了丰富的功能来处理和分析数据。通过掌握 DataFrame 的基本属性、数据清洗方法以及常见运算,用户可以更高效地进行数据预处理,为后续的数据分析和机器学习项目打下坚实基础 [^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值