
机器学习
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
R+Hadoop Rhipe部署
R版本R-2.14.2Rhipe版本0.66protobuf版本2.4.1首先安装R语言软件,需要注意configure时,先设置几个环境变量,编译长shared lib cd R-2.14.2export CFLAGS=-fPICexport CXXFLAGS=-fPIC./configure --with-x=no --enable-R-shlib原创 2012-03-12 14:41:49 · 2907 阅读 · 0 评论 -
一个数据应用闭环
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也应该同时包含集中不同的类型,可根据不同的需求增减相应原创 2012-11-14 18:17:24 · 2082 阅读 · 0 评论 -
监督学习之k Nearest Neighbors算法
首先说kNN算法是一种有监督学习的分类算法。所谓有监督学习,就是在应用算法之前我们必须准备一组训练集,训练集中的每个实例都是由一些特征和一个分类标签组成;通常还会存在一个测试集,用来测试训练出来的分类模型的准确性。其实kNN算法并没有体现出有监督学习的所有特点,没有模型,只有算法。甚至可以说这就是一种暴力扫描法,运行效率上比较低效。在理解算法之前,先要了解多维空间中两个点之间的距离的概原创 2013-06-20 12:00:29 · 1630 阅读 · 0 评论 -
信息的混杂度——香农熵
熵被定义为信息的期望值。一个人的性别——男、女——可以看成是一个信息;一件衣服的颜色——很多颜色——也是信息。但是这两种信息一个非常简单,只有两个可能的值,而颜色是非常多的。也可以说颜色的信息量要比性别的信息量要大、要更加混杂。而熵就是衡量这种混杂度的数学指标。那么具体一点,一个符号A的信息被表示为:>>> from math import log>>> probabilityA原创 2013-06-21 11:47:33 · 3166 阅读 · 0 评论 -
使用NLTK的朴素贝叶斯分类器来训练并完成分类工作
NLTK是Python的一个自然语言处理的模块,其中实现了朴素贝叶斯分类算法。以下,就使用上一篇文中提到的数据,来应用这个模块实现朴素贝叶斯分类。NLTK的实现更加泛化,所以在应用到我们的数据上时需要做一点的转化。首先来看一下NLTK官方文档中给出的一个简单明了的例子,在了解这个例子之后,再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中,在知道名字中最后一个字母后,判断原创 2015-08-10 18:11:31 · 17197 阅读 · 2 评论 -
使用朴素贝叶斯算法,通过用户安装的APP列表来推测用户的性别
从本质上来说,这是一个分类问题,类似于通过邮件内容来推测垃圾邮件,通过用户的相关信息来推测用户是否会拖欠贷款,而通过用户的APP安装列表来推测用户的性别也是一个类似的问题。对于贝叶斯算法来首,我们首先需要一个训练集数据,这个训练集是一个已经打好标签的数据。而要对一堆的数据打标签,人工来做是不太合适的,在这里需要结合人类与计算机各自的优势,来半自动化的识别出比较明显的有性别倾向的APP的原创 2015-07-31 14:54:46 · 11618 阅读 · 5 评论