
数据分析
文章平均质量分 69
Tech_Hog
这个作者很懒,什么都没留下…
展开
-
InfoSphere DataStage 运行时列扩展(RCP)在 ETL 中的应用
总体阐述随着企业信息化建设的发展,大量企业都在架设基于自身所在行业的特点的商业智能系统,来指导商业运营。设计合理,运营高效的商业智能系统,在企业的经营决策中,越来越起着至关重要的作用。IBM InfoSphere Information Server 作为可扩展的企业信息体系结构基础,可以满足企业对于巨大信息量的需求,使企业在运营中更快的交付使用高质量的业务成果。 IBM Infosphe转载 2015-10-23 09:53:04 · 1506 阅读 · 0 评论 -
数据挖掘数据集资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.ty转载 2013-11-22 12:12:23 · 1641 阅读 · 0 评论 -
计算广告学中的GFP、GSP和VCG对比
GFP(广义一阶价格拍卖)主要特点是关键词拍卖中广告主之间进行的是重复博弈,在每一轮拍卖结束后,广告主会根据上一轮报价的情形决定下一轮的报价决策,而这场价格战会被自然而然地分为价格攀升阶段和价格崩溃阶段。只能是在搜索引擎公司了解广告商估价的前提下运作,否则因为没有均衡,波动会在极大程度上带来拍卖效率上的损失。GSP(广义二阶价格拍卖)简单来说它即是支付数=点击次原创 2014-03-20 14:25:57 · 6124 阅读 · 1 评论 -
线性判别分析(Linear Discriminant Analysis, LDA)算法分析
LDA算法入门 一. LDA算法概述:线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽转载 2014-03-18 19:34:36 · 908 阅读 · 0 评论 -
2014年大数据预测分析市场的新兴方法
随着海量信息被分析和编译,对于企业而言,现在比以往任何时候都更容易的充分利用这些数据来解决他们的具体业务需求。而且,通过利用大数据预测分析说带来的好处远远超出了传统营销的应用程序。据路透社新闻报道,大数据的价值量将保持45%的年增长速度,到明年将达到250亿美元。这也就意味着,今年我们将看到数据预测分析在商业领域的广泛使用及其应用程序的快速增长。本文中,我们将为您介绍一些在今年及以后相当一转载 2014-03-03 18:02:23 · 1145 阅读 · 0 评论 -
从数据到价值——创业团队应该关注的四个阶段
这是一个最好的时代,移动互联网技术为从业者提供了无比丰富的数据。从人们的言行举止、社交关系、到地里位置无处不在。这些详细宝贵的数据,蕴含了巨大的价值!但是,这也是一个最坏的时代,面对汹涌而来的海量数据,绝大多数从业者却无可适从,无法从中发掘出有用的信息,难以实现从数据到价值的转换,这是何等的遗憾!如果这是一个从业者的遗憾,无需担忧,因为这是他的个人问题。谁让他不好好上一门王老师的《商务统计学》呢?转载 2014-01-09 19:02:03 · 1272 阅读 · 0 评论 -
海量数据处理面试题集锦
十七道海量数据处理面试题与Bit-map详解作者:小桥流水,redfox66,July。前言 本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道。仅作各位参考,不作它用。 同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题转载 2013-12-22 10:10:06 · 998 阅读 · 0 评论 -
数据分析相关知识梳理总结
持续更新本篇博客主要收集和数据挖掘机器学习相关的数据分析统计分析大数据分析类的知识点,并加入自己在实践过程中在某些案例上的自我理解。主成分分析、因子分析和聚类分析主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原创 2014-01-16 17:21:22 · 3095 阅读 · 0 评论 -
一位数据挖掘工程师眼中的“大数据与企业的数据化运营”
有一种说法,未来所有的行业都会被互联网改造,这种说法可能会有点绝对,但确实说明了一个趋势。前几天参加BDTC2013,看到了越来越多的原来在传统IT企业的同学和朋友纷纷加入移动互联网、大数据、云计算的阵营,越来越多的传统企业在众多IT巨头的忽悠之下开始投身大数据的浪潮。虽然很多老板对大数据的了解仅仅停留在Google搜索引擎或者Amazon的推荐系统这样的产品层面,但是大数据的浪潮显然已经不可阻挡转载 2014-02-12 11:33:12 · 1314 阅读 · 0 评论 -
数据分析资源汇总(持续更新中)
数据分析经典图书大全:http://www.itongji.cn/hao/book.html应用matlab做数据分析:http://pan.baidu.com/s/1F0f5OMIT python:http://pan.baidu.com/s/1EemWa数据分析微博达人大全:http://www.itongji.cn/hao/weibo.html原创 2013-12-12 17:07:01 · 1446 阅读 · 0 评论 -
八个典型的大数据应用案例
什么是大数据?不要再举例说啤酒和尿布的例子了,Gartner的分析师Doug Laney在讲解大数据案例时提到过8个更有新意更典型的案例,可帮助更清晰的理解大数据时代的到来。 1. 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。 2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿转载 2014-01-20 19:33:06 · 6904 阅读 · 0 评论 -
2014趋势预测,大数据将成主流
摘要:年底将至,各界都在对2014年的技术趋势进行预测,2013中国大数据技术大会上发布了《大数据热点问题与发展趋势》&《大数据白皮书》,本文是ZDNet对2014年大数据技术发展的预测。本文的预测来自一组分析行业的公司,包括一个企业软件公司(TIBCO,Spotfire的制造商),一个公开上市的商业智能公司(Tableau),一个分析应用平台的初创公司(Alteryx),一个主流的N转载 2013-12-13 21:37:43 · 1073 阅读 · 0 评论 -
上海推进大数据研究与发展三年行动计划(2013-2015年)
前言 在国家和上海市“十二五”科技发展规划及《上海市中长期科学与技术发展规划纲要》指导下,上海市科学技术委员会通过近一年时间的充分调研和讨论,梳理了市场和商业模式创新需求、大数据资源和技术基础、研发能力和人才现状等。经过充分酝酿、多次征求意见,编制本规划: 维基百科把大数据定义为一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类转载 2014-01-13 15:02:20 · 1400 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多转载 2013-12-22 10:08:28 · 916 阅读 · 0 评论 -
数据分析能力的8个等级
并非所有的分析方法作用都相同。和大多数软件解决方案一样,你会发现分析方法的能力也存在差异,从简单明了的到高级复杂。下面我们按照不同分析方法所能给人带来的智能程度,把分析能力划分为8个等级。1. 固定报表 回答: 发生了什么?什么时候发生的?示例:月度或季度财务报表我们都见过报表,它们一般是定期生成,用来回答在某个特定的领域发生了什么。从某种程度上来说它们是有用的,但转载 2013-12-12 16:41:22 · 1567 阅读 · 0 评论 -
Data Guard模式切换
Data Guard模式切换 概念a、最大性能(maximize performance): 这是Data Guard默认的保护模式。primay上的事务commit前不需要从standby上收到反馈信息,该模式在primary故障时可能丢失数据,但standby对primary的性能影响最小。b、最大可用(maximize availability):转载 2016-03-08 10:27:49 · 799 阅读 · 0 评论