- 博客(4)
- 收藏
- 关注
原创 awk 实用命令
记住下面这个形式:awk 用法:awk ' pattern {action} ' 常用变量:变量名含义ARGC命令行变量个数ARGV命令行变量数组FILENAME当前处理文件名FNR当前正在处理文件的第几行FS输入数据的分隔符RS输入数据的行分隔符NF
2014-02-12 00:35:26
856
原创 实验田AAtest
在广告实验田AA测试时(实验组VS对照组),如果主要对比click相关指标(CTR、PPC)时,需要注意pv量是否足够大的问题。假设在实验组与对照组中,竞得的pv大约为各自50万的量级,那么这100w的pv在实验组与对照组之间的分布会非常接近50wVS50w;但若按照千分之一的点击率估算,这100w会带来1000click,1000click的分布考虑投掷硬币的二项分布F(k,n,p),k
2014-02-10 19:59:41
2331
原创 hadoop初学
分布式计算,对于每天上T的数据增长是解决问题的利器。hadoop目前在大数据领域应用很广,刚接触这个领域时需要有一个起码的认识,后面才能进行深入的开发。这里不做条条框框的介绍,只是从直观理解上说明,内容中会有详细内容的连接。无论是hdfs(分布式文件系统)还是mapreduce架构,其思想都是“分治并行”。“分治”一词来自算法中的分治算法,含义是将一个复杂的、庞大的问题分解成独立的、规
2013-12-29 16:23:01
619
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅