
DM
文章平均质量分 77
mousever
这个作者很懒,什么都没留下…
展开
-
R语言为Hadoop集群数据统计分析带来革命性变化
R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。(也因此称为R)现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S转载 2012-04-04 22:36:45 · 391 阅读 · 0 评论 -
电子商务网站应关注的几个指标
上周末和Hetbert在零售电子商务年会上聊电子商务的数据和用户体验,稀里糊涂聊了不少很具体的东西,聊的比较投机也比较随意。回来看媒体整理出来的资料,偏差不少。故自己整理了一份回顾如下:(现场并非这么说的,但我肚子里要表达的东西就是这些) 1,用户体验的阶段性 前面两年有一些网商的会议邀请我分享用户体验,基本上我都没参加。原因挺简单,我认为这两年分享也没什么用,因为大家转载 2012-04-11 16:40:52 · 1041 阅读 · 0 评论 -
用R处理大数据集
本文翻译自R in Action的附录G,如果对该书感兴趣,请自行购买或去图书馆阅读。R会把所有的对象读存入虚拟内存中。对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误。内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本。以cannot allocate转载 2012-04-12 14:25:32 · 2687 阅读 · 0 评论 -
数据挖掘之R与SQL
一直以来,我们在提到使用R进行数据分析、数据挖掘都会使用RODBC、RJDBC、DBI等相关的包来调用数据库,比如我前面罗嗦的一片文章数据挖掘之R与SQL,但实际基本上各大数据库厂商已有相应的R语言企业级应用产品,这些厂商包括Oracle、IBM、Teradata、Sybase、SAP。Oracle R EnterpriseOracle R Enterprise是针对于大数据市场下,用于处转载 2012-04-14 21:43:48 · 1207 阅读 · 0 评论 -
HBase在数据统计应用中的使用心得
1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。 网站站点统计工具无外乎有以下一些功能: 1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。 2)IP来源信息统计:记录各个来源IP下的转载 2012-05-02 22:10:20 · 451 阅读 · 0 评论 -
RHive:集成R和Hive
https://github.com/nexr/RHive/wiki/UserGuidesRHive是一个R包,在R环境中集成hive。通过使用RHive可以在R环境中写HQL(HiveQL),将R的对象传入hive中,在hive中进行计算。在rHive中小数据集在R中执行,大数据集在hive中运行。越来越多的企业收集了海量细节数据,需要TB或者PB级的数据存储以及从海量数据中发现知识转载 2012-04-20 11:55:33 · 1659 阅读 · 0 评论 -
电子商务:说说转化率
今天我们科普一些概念吧,总发现有人弄错。这就是“转化率”。 一些事 电商都是有公式的 yixieshi 在淘宝干了这么多年,这是我在骨子里的想法。我在《玩法变了》书中就一直提到很多公式,电商领域,只要追求利润,那么都可以用一些公式去进行分解。 一些事 最简单的例子就是下面这个。(抱歉我是理工科背景,就喜欢推导公式,不过这样清晰一些) yixieshi转载 2012-04-21 11:01:44 · 972 阅读 · 0 评论 -
网游玩家流失特征提取办法(基于C5.0算法和SPSS Modeler)
引言网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻都得利用数据作为驱动,然而过分的利用数据驱动业务则会陷入一些误区,进而会导致一些重大决策失误出现,数据终归是数据,有时候数据也会撒谎。在网游行业的数据挖掘方面,很多电信企业的数据挖掘方案是值得参转载 2012-05-12 10:01:11 · 1733 阅读 · 0 评论 -
游戏运营的数据分析
这几天一直在看如何展开数据分析文章,大家写的都不错,说实话,针对如何展开游戏运营数据分析的指导真的非常少,作为每个公司的核心机密是不会拿到台面上与大家分享的,一段时期我上网看了很多的材料,当显示不能满足需求的时候,就要靠我们自己来挖掘。以下是我的结合一些文章后自己总结的数据分析的方法。————————————分割线—————————————————数据分析工作可以从宏观数据和微观数据(细分转载 2012-05-13 22:31:30 · 593 阅读 · 0 评论 -
从Java里调用R – JRI的设置方法
JRI允许用户从Java里面调用R的功能,而Eclipse是目前最常用的Java开发环境。本文介绍在Eclipse里设置JRI的方法。环境:Windows XP 32bitEclipse 8.6R 2.15.0rJava 0.9-31.在R里安装rJava扩展包。JRI已经被包含在rJava里了。命令是: install.packages(“rJava”)。运行完成后rJa原创 2012-06-05 13:09:34 · 623 阅读 · 0 评论 -
决策树模型组合之随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策转载 2012-06-11 14:39:54 · 482 阅读 · 0 评论 -
根据分析法设计游戏是否会扼杀玩法多样性?
中文地址:http://gamerboom.com/archives/44900英文地址:http://www.motivateplay.com/2011/10/gdc-online-–-hunting-whales-will-analytics-kill-off-diversity-of-gameplay/作者:Jim Cummings2011年游戏会议的热门话题无疑是用户分析,转载 2012-06-12 13:49:18 · 1020 阅读 · 0 评论 -
用R软件绘制中国分省市地图
最近要对数据用地图形式展现,查看了R的功能,从统计之都上摘录瑞安方法。【注】新版本的maptools包对很多函数进行了修改,对于修改的内容,文章中用红色的文字进行了说明。鉴于最近有不少人在讨论用R软件绘制地图的问题,我也就跟着凑了凑热闹,对相应的方法学习了一番。下面的这篇文章是一个初步的介绍,还有很多内容仍在学习和探索中,如果大家有什么意见或建议,我将根据自己学习的情况对文章进行进一步转载 2012-12-18 14:47:17 · 1004 阅读 · 0 评论 -
[数据预处理]分箱:数值字段转为集合字段
最近数据处理时用到分箱,再把这知识点放在这回顾下:分箱原因:1、算法要求。某些特定算法(如Naive Bayes、Logistic 回归)要求分类输入。2、性能。如果减少输入字段的不同值数量,算法(如多项Logistic)的性能可能会提高。例如,对每个分级使用中位数或均值,而不使用原始值。3、数据隐私。敏感类个人信息(如工资)可采用范围的报告形式,而不使用实际工资数字,转载 2013-01-10 09:50:46 · 1912 阅读 · 0 评论 -
协同过滤简介
最近在看个性化推荐的相关内容,网上就搜了下相关文章,看到了周涛的博文,在此转载下。协同过滤是最早提出,研究最深入,商业应用最广泛的个性化技术。协同过滤技术服务的对象是个体,却利用了所有用户的信息。在以用户为中心,基于相似性的经典协同过滤算法中,首先通过比较历史数据,计算目标用户和其他用户的相似性,然后把和目标用户非常相似的用户喜欢的商品推荐给目标用户。计算相似性的办法非常多[1],在讨论关联规转载 2013-03-04 10:57:37 · 665 阅读 · 0 评论 -
关于囚徒问题的概率解释(
最近一个会上说到了monty hall问题,发现原来讨论过的问题只是依稀记得,因此这次把网上找的分析过程给记下来,顺便温习下经典的囚徒问题。网上的文章如下;囚徒问题 有三个囚徒,A,B,C等待判决,国王宣布,他们中的一个人将会被赦免,另两个将会被处决。在执行的前夜,A很希望能够知道自己的命运,于是询问监狱长W,监狱长W虽然知道结果,但按照规定不能提前告诉犯人。W想了一下,就告诉了A,B将一转载 2013-07-04 14:20:40 · 6452 阅读 · 1 评论 -
基于协同过滤的推荐系统
转自 http://blog.sina.com.cn/u/1943934012,里面还有其他一些好文章在上一篇博文中,我已经总结了几种主要的推荐方法,其中,基于内容和基于协同过滤是目前的主流算法,很多电子商务网站的推荐系统都是基于这两种算法的。基于内容在第一篇博文中已经详细介绍了,因此本博文主要是介绍基于协同过滤的个性化推荐系统。协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据转载 2013-07-04 16:58:35 · 1316 阅读 · 0 评论 -
波士顿矩阵的局限
摘要:波士顿矩阵是在进行业务投资组合分析是广泛运用的一种方法,但是其存在市场增长率和相对市场份额划分点存在不合理性以及对现金牛和收购业务处理不够恰当,以及适用范围有限等局限,因此不能单纯依据波士顿矩阵进行业务组合判断。关键词:波士顿矩阵;市场增长率;相对市场份额一、波士顿矩阵简介波士顿矩阵是一种分析投资组合时经常采用的方法。这种方法,是把企业战略业务单元的组合作为一个整体进行分析,常用转载 2013-07-05 14:09:39 · 5344 阅读 · 0 评论 -
从Java里调用R – 使用Rserve
简介前段时间介绍了在Java中设置与使用JRI的方法。这种方式有一些弊端:R需要与JVM运行在同一台机器上,当R需要运行大型计算时,会耗用大量CPU与内存,因此会影响到JVM的性能JRI的设置需要本地库的支持,运行的时候还是有些麻烦的Rserve可以解决这两个问题,同时也有JRI一样的易用性。它的原理是提供以HTTP方式连接的R语言接口, 因此可以让专门一台机器来运行RServe,转载 2013-02-04 15:17:07 · 793 阅读 · 0 评论 -
大数据下的数据分析平台架构
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。转载 2013-08-23 15:31:35 · 676 阅读 · 0 评论 -
个性化推荐的十大挑战
个性化推荐很多人都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!还有人觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大众理解,实际上协同过滤只是个转载 2013-08-14 14:09:44 · 644 阅读 · 0 评论 -
游戏运营的数据分析
这几天一直在看如何展开数据分析文章,大家写的都不错,说实话,针对如何展开游戏运营数据分析的指导真的非常少,作为每个公司的核心机密是不会拿到台面上与大家分享的,一段时期我上网看了很多的材料,当显示不能满足需求的时候,就要靠我们自己来挖掘。以下是我的结合一些文章后自己总结的数据分析的方法。————————————分割线—————————————————数据分析工作可以从宏观数据和微观数据(细分转载 2013-08-28 15:34:24 · 983 阅读 · 0 评论 -
互联网用户行为的建模与预测
摘要:近年来,互联网已经渗透到社会生活的方方面面,其数字化的特点也使得记录人们在网络空间中的行为变得切实可行。理解人们在互联网上的行为方式、规律及其影响因素有助于更好地挖掘用户兴趣以提供更准确的推荐,改进互联网环境与服务,以及准确分析评估大规模用户群体的行为。本文面向互联网用户行为,综述近年来行为建模与预测方面的主要进展,并展望这一领域的未来研究课题。关键词:互联网用户行为,行为建模与预测转载 2013-08-28 15:21:48 · 5237 阅读 · 0 评论 -
30个免费数据资源网站
人们都喜欢听故事而不是看数字和公式,数据可视化可能是讲故事的终级神器。但这里有个前提条件,你首先得拥有数据。获取可靠的数据涉及到多个步骤,找到数据、整理清洁数据、转换为合适的格式等等。数据准备往往是数据分析工作中非常让人头疼的方面。随着全世界对数据资源的重视,现在有很多新的公开数据源可供研究者使用。下面就是visual.ly归纳的三十个免费的数据资源网站。本文进行了翻译和补充。1转载 2013-08-29 13:41:26 · 5225 阅读 · 0 评论 -
走近算法:受众行为分析与人群定向
引言 "物以类聚,人以群分"这句古语不仅揭示了物与人的自组织趋向,更隐含了’聚类’和’人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的’人群定向’功能正是通过’聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。 广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自转载 2013-10-11 15:48:55 · 4649 阅读 · 1 评论 -
游戏行业,大数据该如何应用?
游戏行业,我们能做哪些大数据分析应用呢?问题留给大家思考,先看看下面这些内容是否能给我们带来一些启发呢?笔者是在一个MMO项目做过两年数据分析,在一家中型公司负责过从头建设数据分析中心,面试聊过不少人,也对大数据有兴趣有过一些了解,思考过这个问题。1.游戏的数据分析,其总的思路其实是很像大数据的思路。《罗辑思维》有一期讲,大数据其实核心不是大,而是全数据,是将你各种转载 2014-11-18 16:45:41 · 998 阅读 · 0 评论 -
百度腾讯阿里,其大数据优劣势与策略分析
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数转载 2014-11-20 09:33:42 · 3841 阅读 · 0 评论 -
数据挖掘过程中:数据预处理
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量转载 2015-02-09 14:11:36 · 1653 阅读 · 0 评论 -
商圈研究的基本内容与方法
一、商圈划分在商圈研究中,首先要做的是商圈的划分。一般来讲,按企业对消费者吸引力的空间层次划分,商圈可分为三个层次,即核心商圈、次级商圈和边缘商圈。核心商圈:在该商业圈的顾客占顾客总数的比率最高,一般为55%-70%,每个顾客的平均购货额也最高,顾客的集中度也较高;次要商圈:在该商业圈的顾客占顾客总数的比率较少,一般为15%-25%,顾客也较为分散;转载 2015-02-12 11:17:47 · 1996 阅读 · 0 评论 -
大规模数据相似度计算时,解决数据倾斜的问题的思路之一(分块思想)
现有user、item矩阵,如何计算两两用户的相似度呢?最直接的方法就是夹角余弦,计算用户向量之间的cos值,来度量相似度。因为实际问题中,矩阵通常是很稀疏的,所以真正实现cos计算相似度计算的时候,为了减少计算量,采用的的是倒排索引的数据结构。即: 虽然采用的倒排的结构,但是用户量和item量很大,且有些item对应的用户量很大的时候,就会出现严重的数据倾斜问题。以MapR转载 2015-05-26 17:59:53 · 552 阅读 · 0 评论 -
余弦距离、欧氏距离和杰卡德相似性度量的对比分析
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的转载 2015-05-25 15:00:06 · 1326 阅读 · 0 评论 -
数据挖掘10大算法(1)——PageRank
1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文章 在这些算法中,最引人注目的自然是Google的核心技术转载 2015-05-25 15:03:20 · 497 阅读 · 0 评论 -
各种距离算法汇总
1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧转载 2015-05-25 11:26:37 · 54697 阅读 · 1 评论 -
logistic回归深入篇(1)
很早就接触到logistics regression,一直对其有几个点没有想明白,其中比较大的困惑就是为什么左边的公式要选择ln(p/1-p)而不是其他的公式,还有就是为什么一般将p=0.5作为正负样本的区分点前言:本文讨论的是线性范畴其实,要想想明白以上的问题,还得再多想一层,logistics regression(LR)存在的价值是什么?简单来讲,其初衷最初是为了转载 2015-07-07 16:35:23 · 2710 阅读 · 0 评论 -
二分类模型性能评价(R语言,logistic回归,ROC曲线,lift曲线,lorenz曲线)
看了胡江堂介绍logistic回归的文章,总觉得还是有点不理解,所以我自己也来写一下,看看到底是哪里搞不懂。解决分类问题有多种思路,包括应用支持向量机、决策树等算法。还有一种较常规的做法是采用广义线性回归中的logistic回归或probit回归。广义线性回归是探索“响应变量的期望”与“自变量”的关系,以实现对非线性关系的某种拟合。这里面涉及到一个“连接函数”和一个“误差函转载 2015-07-18 18:16:06 · 18058 阅读 · 0 评论 -
二分类模型性能评价 2.0(ROC曲线,lift曲线,lorenz曲线)
参加工作后,对分类模型性能评价有了进一步的认识,所以我来试着更新一下理解。http://chen.yi.bo.blog.163.com/blog/static/150621109201042641952619/这是之前的1.0版本,里面有一些基本概念。首先,ROC曲线是tpr与fpr的相关关系可视化,这种衡量所考虑的目的是在尽量少的误诊(假阳性率)基础上,尽可能多地检验出阳性个转载 2015-07-18 18:26:33 · 11754 阅读 · 1 评论 -
信用卡评分中的误判问题说明
信用评分,本文的例子也是这块。在建立个人信用评分模型时,一般要求数据的包含了贷款者的还款历史,拥有还款历史的贷款者才能被清除地归为“好”或“坏”这两个类别。如果还款期尚在模型建立的时间窗口内,对各种类别的划分就不是那么直接了,这时一些账户就不能够确定地归为“好”或“坏”这两个类别。比如,在还款期内,一个有三笔或以上欠账的账户是“坏”的账户,而“好”账户则没有欠账,那么一个有两笔欠款的账户,转载 2015-07-18 20:18:53 · 1027 阅读 · 0 评论 -
评分卡模型剖析之一(woe、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidenc转载 2015-07-18 11:03:23 · 2528 阅读 · 0 评论 -
图中几个重要的结点
前天跟windy师兄交流的时候提到图中几个比较重要的结点,正好对我的工作很有启发,下面将这几个特殊的结点整理一下:Degree Centrality“频”度中心, Betweenness Centrality间接中心, and Closeness Centrality亲近中心先看一下这个人员关系图:Degree Centrality “频”度中心SN分析员是通过节点多少转载 2015-08-02 18:09:59 · 1742 阅读 · 0 评论 -
网络分析与图简介
前面有介绍过使用Gephi来制作传播图,图是Social Network分析最常用的表现形式和方式,这篇文章介绍一下基本的相关知识。点击查看原始文档Graph的相关基本概念图(Graph):图是用来表示一组物体之间的关系的方式。节点(Node):节点是指要分析的物体,每一个物体就是一个节点,比如在Social Network中每个人就是一个节点。边(Edge):Graph中转载 2015-08-02 19:15:50 · 3186 阅读 · 1 评论