自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pleasure的博客

信息管理

  • 博客(4)
  • 问答 (1)
  • 收藏
  • 关注

原创 python分组后两列数据隔行比较

在数据处理业务中遇到这样一个问题:有三列数据ID,TIME0,TIME1,例如员工编号,上班时间,下班时间。场景:收集员工每天休班时的状态数据,例如地理位置等。要求收集数据的时间区间必须≥12小时,否则认为有噪声无法使用。因此需要筛选出休班时间大于等于12小时的数据。定义:如果某天的上班时间和前一天的下班时间间隔≥12小时,则符合条件,可以正常收集到至少12小时的数据,否则不符合条件。目的:找到所有符合条件的数据。例如表格:IDTIME0TIME112022-01-01

2022-03-10 16:37:43 883 2

原创 python找列表中的连续递增序列

使用python寻找列表中的连续递增序列,例如在[1,2,5,7,4,2,8,9,10]中,找出[1,2]和[8,9,10]def dizeng(l): l1 = [] l2 = [] for i in range(0,len(l)-1): if l[i]+1==l[i+1]: l2.append(l[i]) l2.append(l[i+1]) if i==len(l)-2:

2022-01-05 14:16:16 4952

原创 数据处理案例1:表格中找到满足条件的连续数据行思路

数据处理案例1:表格中找到满足条件的连续数据行问题描述:例如找到工资小于等于9000的连续行区间,并进行简单统计,包括人数,区间的数据长度,区间的时间跨度等。数据表格描述如下:ID时间工资12021-011100012021-06800012021-08900012021-0912000………22021-04700022021-099000………该问题采取的措施:解决这个问题,我的思路是:先筛选出

2022-01-04 16:18:26 727 2

原创 sklearn数据标准化的4个问题

sklearn的数据标准化的4个问题数据标准化是机器学习建模之前的常见操作,可以减小不同特征的数据量纲的影响。在机器学习数据处理过程中,笔者整理了4个常见的问题:问题1:fit和transform的流程问题2:标准化,归一化和鲁棒化的三种处理方式的运算方式和手动代码编写。问题3:面对K折交叉验证时,先对所有数据集统一标准化,还是在每一折内,分别对训练集标准化作用到各自测试集。问题4:数据标准化场景。1.标准化流程在sklearn中,数据标准化与模型类似。可以通过fit再transform

2021-10-12 14:24:17 1876

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除