pandas 中 dataframe 重复元素个数的获取

方法有二:

1. 在调用duplicated方法后,非重复的元素会被标记为False,而重复的元素会被标记为True

count = 0
for i in users_info['user_id'].duplicated():
    if i == True:
        count = count + 1
count

【注1】users_info为一个dataframe框,user_id为其中一列

【注2】duplicated( )方法只会把重复的元素标记为True,而不会标记被重复的元素

2.这行代码的速度更快,drop_duplicates(['user_id'])方法为删除user_id列中相同的元素

users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
【注】shape[0] 为获取行数
### 获取 Pandas DataFrame 行数的方法 在 Pandas 中,有多种方法可以用来获取 DataFrame 的行数。以下是几种常见的实现方式: #### 方法一:使用 `len()` 函数 `len()` 是 Python 内置函数之一,可以直接作用于 DataFrame 对象以返回其行数[^3]。 ```python row_count = len(df) print(row_count) ``` #### 方法二:利用 `.shape` 属性 `.shape` 返回的是一个包含两个元素的元组 (rows, columns),其中第一个元素表示行数,第二个元素表示列数[^2]。因此可以通过索引来提取行数: ```python row_count = df.shape[0] print(row_count) ``` #### 方法三:基于索引长度计算 通过访问 DataFrame 的索引属性 (`df.index`) 并对其应用 `len()` 函数也可以得出总行数[^3]: ```python row_count = len(df.index) print(row_count) ``` 以上三种方法均能有效统计给定 DataFrame 的实际行数量。 ### 示例代码综合展示 下面给出一段完整的示例程序,演示前述提到的不同技术手段来取得相同的结果——即目标 DataFrame 的行数目: ```python import pandas as pd import numpy as np # 创建测试用DataFrame df = pd.DataFrame({'a': [None, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]}) print("原始数据:") print(df) # 使用不同方法获取行数 method_one_result = len(df) method_two_result = df.shape[0] method_three_result = len(df.index) # 输出结果对比验证一致性 print(f"\nMethod One Result: {method_one_result}") print(f"Method Two Result: {method_two_result}") print(f"Method Three Result: {method_three_result}") assert method_one_result == method_two_result == method_three_result, "各方法所得行数值不一致" ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值