
集合关系与批处理
R语言一些操作。
包括抽样、集合、字符变换、文件批处理
老身聊发少年狂
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据的批量替换
真实数据的价值,统计人都明白。但这些数据往往并不能直接公开,须经过一番“伪装”才能同大家见面。部分实现方式:1、从A——B建立新旧数据的对应关系通过匹配的方式批量替换,类似vlookup 参考包:sqldf、merge(效率不高,语法简单,适合简单数据集)2、从12314到1***4字符串替换 参考包:stringr yy<-sample(c(10000:99999)...原创 2019-09-03 07:52:38 · 781 阅读 · 0 评论 -
R里的集合关系
1、普通集合(可用于统计留存)#%in%#求A和B的并集 union(A,B)#求A和B的交集 intersect(A,B)#求A-B的补集 setdiff(A,B)#检验A,B是否相同 setequal(A,B)#检验是否相同(考虑顺序)identical(); all.equal();setequal(x,y)x<-c(1:3);y<-c(3:1)seteq...原创 2019-09-04 07:29:08 · 1288 阅读 · 0 评论 -
用集合的思想分辨字条
作为一个曾经的打杂人士,时常会碰到非常奇葩的活。——“那谁,把里面的医药行业的公司词条摘出来”,说完就甩过来一张包含百万级别词条的sheet。——“额,这要怎么怎么分呢?”——“用眼睛看啊”——“这效率也太低了吧”——“没事,我们有的是人和时间”额,人工和时间也不能这样滥用好伐,这种low爆了的搞法要弄到猴年马月啊,恐怕到时候我也瞎了。真用这种枯燥脑残的法子,我就该好好反思了,又不是...原创 2019-09-09 10:48:45 · 115 阅读 · 0 评论 -
留存分析的逆应用:根据留存率挑选会员
留存分析是一种非常常规的用户行为分析方法,利用集合关系和漏斗图非常方便地完成。不过今天咱们说的并不是这个,而是留存分析的逆应用,即根据事先设定好的留存率选择会员设定两个交叉的项目,项目A的会员要受项目B的约束;即A中所有会员,必须全部来自于B(A<=B),或者来自于B的全部(A>B)。*实现:1、求A、B列的较大值(可规避strata()中size不能取0的问题。);...原创 2019-09-13 14:39:56 · 151 阅读 · 0 评论 -
用抽样的思想拆分数据
有时候用上一些统计的思想,是可以简化甚至解决一般的认为只有靠程序员才能解决的“算法”问题的。举个“分果果”的例子,现有487550条订单明细,需要重新分配到新的订单里去。要求,第一,订单数量保持不变;第二,相同的商品不能出现在一个订单里;第三,订单的明细数不能太均匀。我们可以用抽样的方法快速解决这个问题。首先,将原数据按商品编码进行排序,并统计对应的明细数。其次,将不同的商品按其明细...原创 2019-09-21 20:38:23 · 166 阅读 · 0 评论 -
数据清洗:字符串处理
在拿到数据之后,一般会有一个数据清洗的工作,尤其是脏数据,光整理的时间可能就会耗掉整个分析流程的大部分。很多人以为最费时间的是数据建模,其实不然,前期的数据获取以及数据清洗才是最花时间的过程。还是举个例子,现有已从天猫上爬下来的若干商品信息文本,包括名称、规格、价格、批准文号、厂家等。但发现数据根本就用不了,因为·有几个问题十分突出:其一:名称、规格混合在一起,比如“汤臣倍健蛋白粉乳清...原创 2019-09-24 19:37:26 · 882 阅读 · 0 评论 -
将表格内容分条转换为若干文档
在前面的文章中,我们有讲过关于具有一定规律的伪数据的模拟,比方说身份证号的生成,复习可戳。最后会生成这样的表:但可能光有它还不够,我们也许还需要单独的会员信息,就像这样。一条信息对应一个txt文档,想要一条一条复制粘贴的,先去面壁。用R实现很简单,3步可解决。(1)读取一条的信息;testdata[3,]省 区域 姓名 性别 身份证号码3 安徽 安庆市 ...原创 2019-09-25 19:38:16 · 220 阅读 · 0 评论 -
xlsx、csv等excel文件的批量处理
excel表格虽然看起来lowlow的,但目前的确还是我们一般的数据从业者在工作中最常接触的文件类型。要知道一套完整的数据分析流程走下来,往往不是一个人的事情,而是多方的对接,这时候一个标准化的通用的数据文件类型就很有必要。换言之,咱不用,但是其它人要用咱也没办法。既然用,就要用出水平,用出效率。尤其在涉及多个表、多个sheet时,批量处理就很有必要了。1. 读取数据(1)一个文件夹下的所...原创 2019-09-27 20:56:41 · 1004 阅读 · 0 评论 -
一般文件的批量处理(新建、复制、粘贴、剪贴、重命名、排序等)
上一篇文章我们说到了在R语言里面,关于excel文件的批处理,点击跳转,今天呢,我们就谈谈一般文件的批量处理。1、批量获取名称setwd(“C:/Users/admin/Desktop/test”)xname<-list.files()2、批量重命名顺便解决直接读取的乱序问题setwd(“C:/Users/admin/Desktop/test”)xname<-list.f...原创 2019-10-09 20:10:18 · 1469 阅读 · 0 评论