基于云计算的数据挖掘

    一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。

 

    至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:

 

Association Analysis:

    Apriori

Classification:

    Nearest-Neighbor

    Naive Bayesian

Clustering:

    K-means

    Canopy

    Fuzzy K-means

Others:

    PageRank

 

   此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:

个人中心网络

 

接下来还要实现一些算法,包括:

    Neural Network

    SVM

    Logistic regression

    Graph Mining

    Cluster Evaluation

    Sequence Patterns Mining

等。

 

这里把Mahout Goal post出来,做个对比,同时也知道我们分析:

    High-performance, distributed matrix (both sparse and dense)
    Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
    Naive Bayes classification and Bayesian network
    Backpropogation (Neural Network)
    Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
    Locally-Weighted Linear Regression (LWLR) and logistic regression
    Support Vector Machine
    Gaussian Discriminant Analysis
    Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis

这其中有些我们已经实现了,不过还要继续努力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值