python中基本数据处理

本文详细介绍如何在数据框中根据特定条件生成新列,包括根据两列数据制定规则得出新列,根据一列数据进行分层得出新列,以及将两个数据框的不同列合并到同一数据框的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

同一个数据框中,根据两列数据得出新一列数据

例:有某工厂的上班时间,一列是夜间上班时间,一列是白间上班时间,我们需要根据这两列数据得出一列新数据:工人的夜班和白班情况。
具体规则:
1、如果夜间在线时长大于0,称之为夜班
2、如果白间在线时长大于0,称之为白间
3、如果司机当天在线时长为0 ,这称为未做单
4、如果夜间和白间的在线时长都大于0,称之为混合

def function(a,b):
    if (a > 0) & (b == 0):
        return "只做夜班"
    elif (a == 0) & (b > 0):
        return "只做白班"
    elif (a == 0) & (b == 0):
        return "未做单"
    else:
        return "混合"
data['白班夜班'] = data.apply(lambda x:
    function(x.夜间上班时长,
             x.日间上班时长),axis = 1)
  • 注意这里都是用双等于,不能用等于,等于是赋值,双等于是查找
  • 这里a>0以及b==0这些条件一定要用括号括起来,否则会只执行前面一部分条件。例如 if a > 0 & b == 0:
    return “只做夜班”这里没有加括号,只会判断a>0就判断为只做夜班,会出现判断错误。

同一个数据框中,根据某一列数据进行分层,分层后得出新的数据

例:有某工厂工人上班时间的总时长,我们要根据上班总时长对工人进行分层,数据以分钟登记
具体分层规则:
1、0小时–未做单;
2、0-5小时(不含5小时)–兼职;
3、5-10小时(含5小时,不含10小时)–休闲;
4、10-12(含10小时,不含12小时)–全职;
5、12小时以上(含12小时)–勤奋。

bins = [min(data['上班时长'])-1,0,300,600,720,max(data['上班时长'])+1]
labels = ['未做单','兼职','休闲','全职','勤奋']
data['全职情况'] = pd.cut(data['上班时长'],
         bins,labels=labels)
  • 这里bins的边界是含右不含左,这里如果bins最小值设置为0,那么结果中0将会被判断为nan。

将两个数据框的不同列合并到同一个数据框中,类似于Excel中的vlookup函数

例:有两个数据框,一个是司机的做单数据,一个是包含司机的车牌信息,我们需要将司机的做单数据中合并上车牌号。

汇总 = pd.merge(a,b[['司机ID','车牌号']],
                  left_on='ID',right_on='ID',how='left')
  • 注意这里合并只是合并车牌号,因此需要将索引列和车牌号单独筛选出来
  • 而且注意使用双中括号–b[[‘司机ID’,’车牌号’]],使用但括号将出现执行错误
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值