Pleasure2021-优快云博客

原创 python分组后两列数据隔行比较

在数据处理业务中遇到这样一个问题：有三列数据ID,TIME0,TIME1，例如员工编号，上班时间，下班时间。场景：收集员工每天休班时的状态数据，例如地理位置等。要求收集数据的时间区间必须≥12小时，否则认为有噪声无法使用。因此需要筛选出休班时间大于等于12小时的数据。定义：如果某天的上班时间和前一天的下班时间间隔≥12小时，则符合条件，可以正常收集到至少12小时的数据，否则不符合条件。目的：找到所有符合条件的数据。例如表格：IDTIME0TIME112022-01-01

2022-03-10 16:37:43 923 2

原创 python找列表中的连续递增序列

使用python寻找列表中的连续递增序列，例如在[1,2,5,7,4,2,8,9,10]中，找出[1,2]和[8,9,10]def dizeng(l): l1 = [] l2 = [] for i in range(0,len(l)-1): if l[i]+1==l[i+1]: l2.append(l[i]) l2.append(l[i+1]) if i==len(l)-2:

2022-01-05 14:16:16 5007

原创数据处理案例1：表格中找到满足条件的连续数据行思路

数据处理案例1：表格中找到满足条件的连续数据行问题描述：例如找到工资小于等于9000的连续行区间，并进行简单统计，包括人数，区间的数据长度，区间的时间跨度等。数据表格描述如下：ID时间工资12021-011100012021-06800012021-08900012021-0912000………22021-04700022021-099000………该问题采取的措施：解决这个问题，我的思路是：先筛选出

2022-01-04 16:18:26 785 2

原创 sklearn数据标准化的4个问题

sklearn的数据标准化的4个问题数据标准化是机器学习建模之前的常见操作，可以减小不同特征的数据量纲的影响。在机器学习数据处理过程中，笔者整理了4个常见的问题：问题1：fit和transform的流程问题2：标准化，归一化和鲁棒化的三种处理方式的运算方式和手动代码编写。问题3：面对K折交叉验证时，先对所有数据集统一标准化，还是在每一折内，分别对训练集标准化作用到各自测试集。问题4：数据标准化场景。1.标准化流程在sklearn中，数据标准化与模型类似。可以通过fit再transform

2021-10-12 14:24:17 1954

空空如也

5折交叉验证的ROC绘制，是绘制平均roc还是将测试结果拼接后统一绘制

2021-09-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人