Pandas数据处理大全汇总

本文介绍了使用Pandas库进行数据预处理和清洗的方法,包括读取CSV和TXT文件、应用函数到DataFrame、转换数据类型、处理分类变量、检查和删除缺失值等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Read file

可以用来阅读csv和txt文本文件并预处理,可自行设定分割符

def load(path):
    sp = re.compile("[,; ;]+")
    df = pd.read_csv(path,sep='|',header=None,names=['zt'])[['zt']].dropna()
    df['zt'] = df['zt'].apply(lambda s: list(filter(None, sp.split(s))))
    df['cid'] = df['cid'].apply(lambda s: list(filter(None, sp.split(s))))
    df['cname'] = df['cname'].apply(lambda s: list(filter(None, sp.split(s))))
    df['keywords'] = df['keywords'].apply(lambda s: list(filter(None,sp.split(s))))
    df['ll'] = df['ll'].apply(lambda s: list(filter(None, sp.split(s))))
    df['cname'] = df['cname'].apply(lambda s: list(filter(None, s.split(','))))
    df['keywords'] = df['keywords'].apply(lambda s: s.split())
    df['le'] = df['le'].apply(lambda s: s.split())
    return df[(df['zt'].map(len) > 0) & (df['cid'].map(len) > 0) &
              (df['cname'].map(len) > 0) & (df['keywords'].map(len) > 0) &
              (df['ll'].map(len) > 0) & (df['le'].map(len) > 0)]

1.apply()

当想让方程作用在一维的向量上时,可以使用apply来完成,如下所示

In [116]: frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [117]: frame
Out[117]: 
               b         d         e
Utah   -0.029638  1.081563  1.280300
Ohio    0.647747  0.831136 -1.549481
Texas   0.513416 -0.884417  0.195343
Oregon -0.485454 -0.477388 -0.309548

In [118]: f = lambda x: x.max() - x.min()

In [119]: frame.apply(f)
Out[119]: 
b    1.133201
d    1.965980
e    2.829781
dtype: float64

2.applymap()

如果想让方程作用于DataFrame中的每一个元素,可以使用applymap().用法如下所示

In [120]: format = lambda x: '%.2f' % x

In [121]: frame.applymap(format)
Out[121]: 
            b      d      e
Utah    -0.03   1.08   1.28
Ohio     0.65   0.83  -1.55
Texas    0.51  -0.88   0.20
Oregon  -0.49  -0.48  -0.31

3.map()

map()只要是作用将函数作用于一个Series的每一个元素,用法如下所示

In [122]: frame['e'].map(format)
Out[122]: 
Utah       1.28
Ohio      -1.55
Texas      0.20
Oregon    -0.31
Name: e, dtype: object

Pandas数据清新

1. 删除多列数据

def drop_multiple_col(col_names_list, df):
    df.drop(col_names_list, axis=1, inplace=True)
    return df

2. 转换 Dtypes

def change_dtypes(col_int, col_float, df):
    df[col_int] = df[col_int].astype('int32') 
    df[col_float] = df[col_float].astype('float32')

3. 将分类变量转换为数值变量

def convert_cat2num(df):
    num_encode = {'col_1' : {'YES':1, 'NO':0},'col_2' : {'WON':1, 'LOSE':0, 'DRAW':0}} df.replace(num_encode, inplace=True)

4. 检查缺失的数据

def check_missing_data(df):
    return df.isnull().sum().sort_values(ascending=False)

5. 删除列中的字符串

def remove_col_str(df):
    df['col_1'].replace('\n', '', regex=True, inplace=True)
    df['col_1'].replace(' &#.*', '', regex=True, inplace=True)

6. 删除列中的空格

def remove_col_white_space(df):
    df[col] = df[col].str.lstrip()

7. 将两列字符串数据(在一定条件下)拼接起来

def concat_col_str_condition(df):
    mask = df['col_1'].str.endswith('pil', na=False)
    col_new = df[mask]['col_1'] + df[mask]['col_2']
    col_new.replace('pil', ' ', regex=True, inplace=True)

8. 转换时间戳(从字符串类型转换为日期「DateTime」格式)

def convert_str_datetime(df):
    df.insert(loc=2, column='timestamp', value=pd.to_datetime(df.transdate, format='%Y-%m-%d %H:%M:%S.%f'))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值