- 博客(4)
- 问答 (1)
- 收藏
- 关注
原创 python分组后两列数据隔行比较
在数据处理业务中遇到这样一个问题:有三列数据ID,TIME0,TIME1,例如员工编号,上班时间,下班时间。场景:收集员工每天休班时的状态数据,例如地理位置等。要求收集数据的时间区间必须≥12小时,否则认为有噪声无法使用。因此需要筛选出休班时间大于等于12小时的数据。定义:如果某天的上班时间和前一天的下班时间间隔≥12小时,则符合条件,可以正常收集到至少12小时的数据,否则不符合条件。目的:找到所有符合条件的数据。例如表格:IDTIME0TIME112022-01-01
2022-03-10 16:37:43
883
2
原创 python找列表中的连续递增序列
使用python寻找列表中的连续递增序列,例如在[1,2,5,7,4,2,8,9,10]中,找出[1,2]和[8,9,10]def dizeng(l): l1 = [] l2 = [] for i in range(0,len(l)-1): if l[i]+1==l[i+1]: l2.append(l[i]) l2.append(l[i+1]) if i==len(l)-2:
2022-01-05 14:16:16
4952
原创 数据处理案例1:表格中找到满足条件的连续数据行思路
数据处理案例1:表格中找到满足条件的连续数据行问题描述:例如找到工资小于等于9000的连续行区间,并进行简单统计,包括人数,区间的数据长度,区间的时间跨度等。数据表格描述如下:ID时间工资12021-011100012021-06800012021-08900012021-0912000………22021-04700022021-099000………该问题采取的措施:解决这个问题,我的思路是:先筛选出
2022-01-04 16:18:26
727
2
原创 sklearn数据标准化的4个问题
sklearn的数据标准化的4个问题数据标准化是机器学习建模之前的常见操作,可以减小不同特征的数据量纲的影响。在机器学习数据处理过程中,笔者整理了4个常见的问题:问题1:fit和transform的流程问题2:标准化,归一化和鲁棒化的三种处理方式的运算方式和手动代码编写。问题3:面对K折交叉验证时,先对所有数据集统一标准化,还是在每一折内,分别对训练集标准化作用到各自测试集。问题4:数据标准化场景。1.标准化流程在sklearn中,数据标准化与模型类似。可以通过fit再transform
2021-10-12 14:24:17
1876
空空如也
5折交叉验证的ROC绘制,是绘制平均roc还是将测试结果拼接后统一绘制
2021-09-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人