
大数据分析
昕玫
求知而无欲
展开
-
使用Logstash + Elasticsearch作为大数据索引、分析工具
logstash(1.4.0)是一个不错的日志监控与分析工具,数据通过logstash使用后端的ElasticSearch(1.1.1)集群完成数据索引,以供后续的查询、分析使用。logstash提供了一个geoip的filter,如果发送的事件数据中有IP地址之类的数据,就可以通过这个过滤器将对应的国家、城市等信息添加到数据中,为以后的上卷或下钻操作提供数据基础。我们的应用场景是这样转载 2015-04-07 09:05:58 · 1554 阅读 · 0 评论 -
python实现余弦近似度
方法一:def cos(vector1,vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a,b in zip(vector1,vector2): dot_product += a*b normA += a**2 norm原创 2016-09-13 16:17:57 · 2785 阅读 · 1 评论 -
【用户行为分析】 用wiki百科中文语料训练word2vec模型
前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个很有帮助的算法。word2vec,顾名思义是将词语(word)转化为向量(vector)的的工具。产自Google,于2013年开源。在向量模型中,我们可以做基于相似度(向量距离/夹角)的运算。在模型中向量的相似度即对应词之间语义的相似度,简单来说,就是两个词在同一个语义场景出现的概率。比如, 我们向模型输入原创 2015-11-06 16:46:43 · 17301 阅读 · 16 评论 -
【分类】SVM算法学习
本次内容主要讲解什么是支持向量,SVM分类是如何推导的,最小序列SMO算法部分推导。最后给出线性和非线性2分类问题的smo算法matlab实现代码。一、什么是支持向量机(Support Vector Machine)本节内容部分翻译Opencv教程:http://docs.opencv.org/doc/tutorials/ml/introduction_to_svm/int转载 2016-07-28 17:49:13 · 1321 阅读 · 0 评论 -
【分类】朴素贝叶斯算法学习
有一段时间没有推演算法了,用分类算法里据说挺简单的朴素贝叶斯来练习一下。朴素贝叶斯公式如下: P(C/W) = P(C) * P(W/C) / P(W)C:类别W:文章公式左侧:P(C/W) : 某文本属于某类别的概率公式右侧:P(C):先验概率,某个类别的文本数 / 总文本数。原创 2016-07-27 18:28:00 · 621 阅读 · 0 评论 -
阿尔法狗原理解析
最近在看机器学习,妈妈在旁边一直催我说做一个股票走势预测模型,准备后面满足她的想法做一个纯好玩的小作业。回到正题,转一篇不错的阿尔法狗原理解析。作者:袁行远链接:https://www.zhihu.com/question/41176911/answer/90118097来源:知乎著作权归作者所有,转载请联系作者获得授权。左右互搏,青出于蓝而胜于蓝?—阿转载 2016-07-27 11:54:02 · 46421 阅读 · 6 评论 -
hadoop本地任务运行过程报临时文件找不到问题排查
10个节点的Hadoop集群在使用mahout做大量的数据分析一段时间后,开始报如下错误:[2015-12-31 10:07:31,440] [INFO ] pool-5-thread-3 SparseVectorsFromSequenceFiles - Maximum n-gram size is: 1[2015-12-31 10:07:31,440] [INFO ] pool-5-thr原创 2016-01-11 18:12:17 · 10122 阅读 · 0 评论 -
Hadoop优化清理本地temp临时文件方式
当launch一个job到hadoop 集群,hadoop集群中的 TaskTracker(TT),在从一次heartbeat中接收到 JobTracker(JT)的cmd后,TT会在自己本地机器上运行一些task进程,以完成这个job的某些部分的数据 处理。在task运行过程中,或者 运行完成后,总是会或多或少的产生一些中间结果,或者jobCache的数据,这些数据通常都需要向TT的本地文件转载 2016-01-07 09:13:12 · 7474 阅读 · 0 评论 -
在应用中嵌入使用Mahout,实现Kmeans聚类(非打包jar运行模式)
最近在项目中要使用Mahout来进行Kmeans聚类,搜了一下资料,发现大多数都是用hadoop jar的形式运行Mahout程序。我们的项目是一个后端接口服务,也就是需要放在resin或tomcat中运行的war程序。这就不可能打包成jar,用hadoop jar这种粗糙的形式来跑了。 hadoop之所以需要我们把程序打包成jar,是因为他需要把我们的程序分发到各个分布式节点中跑原创 2016-01-06 18:17:57 · 1916 阅读 · 0 评论 -
用 WEKA 进行数据挖掘,第 2 部分: 分类和群集
Michael Abernethy, 产品开发经理, Optimal Auctions简介: 数据挖掘是很多技术的共同术语,用以表达从数据中一点点地收集信息并将其转变成有实际意义的趋势和规则来提高您对数据的理解。在本系列 “用 WEKA 进行数据挖掘” 的第 2 部分我们将讨论两种最常见的数据挖掘方法 — 分类和群集 — 利用它们可以对您的数据进行更强大的分析。查看转载 2015-12-16 15:42:22 · 810 阅读 · 0 评论 -
Mahout解决异常Not implemented by the DistributedFileSystem FileSystem implementation
今天在项目中使用mahout的过程中,遇到了这个异常:[14:43:13.059] [2015-11-24 14:43:13,058] [INFO ] resin-port-8080-23 AbstractJob - Command line arguments: {--charset=[UTF-8], --chunkSize=[64], --endPhase=[2147483647], --原创 2015-11-24 14:56:26 · 1841 阅读 · 0 评论 -
Mahout学习路线图
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从201转载 2015-10-13 18:06:21 · 649 阅读 · 0 评论 -
淘宝京东类电商评论标签化的思路
最近发现京东的评论也开始标签化了,虽然相对于淘宝的标签显得比较生硬,但是也可以看出标签化是评论的一个趋势,我个人比较喜欢看评论说话,作为一个IT工作者,曾经思考了下评论的标签化工作可能涉及的技术,正好微博有人问起,现在简单的整理如下。 评论标签化的作用 评论的标签化的作用首先体现在用户体验好了,相对于看评论,标签可读性更好,更加明了,用户一眼便能看出好坏,当然电商是不会把坏的结转载 2015-10-13 18:02:31 · 4649 阅读 · 1 评论 -
windows/linux 安装gensim简易方法
为了使用wiki百科来训练模型( 中英文维基百科语料上的Word2Vec实验 )我需要安装python和gensim。在gensim安装上用了两三天还没装好,一开始是在服务器上装,各种教程都试了个遍还是不行,后来在我本机windows上装,也是各种坎坷。最后找到正确的方法,其实只需要两步:1. 安装Anaconda这是一个科学计算环境,会帮你把很多依赖装起来。原创 2015-10-26 15:53:18 · 19674 阅读 · 6 评论 -
【用户行为分析】【Mahout】调研学习之一:分析算法简要总结
引言:Mahout是什么Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hado原创 2015-10-13 17:58:44 · 1814 阅读 · 0 评论 -
【补课】【概率论】几种分布概述
正态分布:又名高斯分布。若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。期望值μ决定了其位置,其标准差σ决定了分布的幅度——中轴线所在的位置横坐标为μ,标准差越大则曲线起伏越平缓(中部没有这么高耸,两侧比较分散)。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布,即N(0,1)。概率密度函数为:正态分布的密度函数的原创 2016-08-10 17:39:42 · 10158 阅读 · 0 评论