
统计
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
Hadoop/Hive简介
Hadoop是一个存储计算框架,主要由两部分组成:存储(Hadoop分布式文件系统-HDFS)计算(MapReduce计算框架)Hadoop分布式文件系统这是一种文件系统实现,类似于NTFS,ext3,ext4等等,不过它是建立在更高的层次之上的。在HDFS上存储的文件被分成块(每块默认未64M,比一般的文件系统块大小大的多,可调)分布在原创 2011-11-22 15:01:13 · 4083 阅读 · 0 评论 -
使用NLTK的朴素贝叶斯分类器来训练并完成分类工作
NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中,在知道名字中最后一个字母后,判断原创 2015-08-10 18:11:31 · 17197 阅读 · 2 评论 -
另一种扩展并加速Hadoop计算能力的计算架构—Presto
Hadoop自身的MapReduce计算框架是非常chua原创 2014-09-25 11:13:41 · 6669 阅读 · 0 评论 -
Elasticsearch & Logstash -- 一些经验总结
本文作为一些实践经验的总结,并不保证是最佳实践,原创 2014-08-01 11:27:14 · 25794 阅读 · 6 评论 -
信息的混杂度——香农熵
熵被定义为信息的期望值。一个人的性别——男、女——可以看成是一个信息;一件衣服的颜色——很多颜色——也是信息。但是这两种信息一个非常简单,只有两个可能的值,而颜色是非常多的。也可以说颜色的信息量要比性别的信息量要大、要更加混杂。而熵就是衡量这种混杂度的数学指标。那么具体一点,一个符号A的信息被表示为:>>> from math import log>>> probabilityA原创 2013-06-21 11:47:33 · 3166 阅读 · 0 评论 -
HUE beeswax中文显示问题的解决方案
HUE是Cloudera推出的Hadoop生态系统的Web访问接口,基于Python Django开发。在使用过程中发现,如果提交的SQL语句中有中文的注释,提交之后,整个语句将会保存在后端的MySQL历史表中,但是再次去查看历史记录的时候,其中的中文却显示成一串问号。显然,这种问题是因为数据库编码问题导致的。为了解决这个问题,可以做如下的操作:1。 修改MySQL的配置文件(/e原创 2013-05-23 19:03:05 · 6180 阅读 · 2 评论 -
一种计算留存的思路
在一些统计系统中,为了观察用户的粘度,我们会计算一系列的叫做留存的指标——次日注册留存、2日注册留存...N日注册留存,比如昨天注册了1000名用户中,在今天有300名用户又登录了,那么对应于昨天的注册留存就是30%;如果再去细究,还可以去计算活跃用户的留存情况,比如昨天登录的1000名用户中,在今天,其中的100名用户又活跃了,那么对应于昨天的活跃次日留存就是10%。如果更细究下去的话,还可以去原创 2013-04-13 18:06:27 · 4483 阅读 · 0 评论 -
跨国际链路的数据服务系统架构设计的一种实现思路
现在数据在互联网产品中发挥的作用越来越大,很多公司都开始收集数据、整理数据,之后再数据建模、分析数据;最终我们得到的是知识,是某种规律的发现。发现知识和规律之后,我们需要将这些知识和规律运用到产品的改进或者运营中去。有些知识可以渗透在整个产品的设计中,比如说,我们通过数据分析发现,对于某种类型的网站的用户,他们大多数喜欢暖色调,那么我们就可以在设计界面的时候,多去使用一些暖色调;但是有些知识却不能原创 2012-07-30 16:15:12 · 2077 阅读 · 0 评论 -
R+Hadoop Rhipe部署
R版本R-2.14.2Rhipe版本0.66protobuf版本2.4.1首先安装R语言软件,需要注意configure时,先设置几个环境变量,编译长shared lib cd R-2.14.2export CFLAGS=-fPICexport CXXFLAGS=-fPIC./configure --with-x=no --enable-R-shlib原创 2012-03-12 14:41:49 · 2907 阅读 · 0 评论 -
Facebook scribe部署实践
基于scribe来收集众多服务器的日志已经在许多公司应用,但是部署scribe确是一个令人纠结的过程,本人也做过一些相关工作,现在将scribe部署方式同大家分享一下:环境:centos 5.4 或者 suse准备阶段:1. apache ant,这个主要是用到java的库的时候需要安装,因为编译java的访问接口的时候需要用到ant,如果用不到java,那么可以不装,在编译t原创 2012-01-05 12:55:35 · 1894 阅读 · 1 评论 -
使用朴素贝叶斯算法,通过用户安装的APP列表来推测用户的性别
从本质上来说,这是一个分类问题,类似于通过邮件内容来推测垃圾邮件,通过用户的相关信息来推测用户是否会拖欠贷款,而通过用户的APP安装列表来推测用户的性别也是一个类似的问题。对于贝叶斯算法来首,我们首先需要一个训练集数据,这个训练集是一个已经打好标签的数据。而要对一堆的数据打标签,人工来做是不太合适的,在这里需要结合人类与计算机各自的优势,来半自动化的识别出比较明显的有性别倾向的APP的原创 2015-07-31 14:54:46 · 11618 阅读 · 5 评论