
大数据分析
文章平均质量分 75
njpjsoftdev
软件开发小组
展开
-
大数据分析技术研究报告(一)
作者:朱赛凡一 数据分析处理需求分类1 事务型处理在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点:一是事务处理型操作都是细粒度操作,每次事务处理涉及数据量都很小。二是计算相对简单,一般只有少数几步操作组成,比如修改某行的某列;三原创 2016-08-05 15:06:21 · 7499 阅读 · 0 评论 -
大数据分析技术研究报告(二)
二 大数据背景下事务型处理系统相关技术在google、facebook、taobao等大互联网公司出现之后,这些公司注册和在线用户数量都非长大,因此该公司交易系统需要解决“海量数据+高并发+数据一致性+高可用性”的问题。为了解决该问题,从目前资料来看,其实没有一个通用的解决方案,各大公司都会根据自己业务特点定制开发相应的系统,但是常用的思路主要包括以下几点:(1)数据库分片,结合业原创 2016-08-05 15:09:49 · 2639 阅读 · 0 评论 -
大数据分析技术研究报告(三-1)
作者:朱赛凡 三大数据背景下数据统计分析技术介绍随数据量变大,和事务处理不同的是,单个统计分析涉及数据量会非常大,单个统计分析任务涉及数据会分散在多台服务器上,且由于计算量大,采用单台服务器进行计算,会导致计算时间非常长,单个统计分析任务必须采用并行计算方式来加快单个统计分析任务执行速度。1并行查询与并行计算技术介绍在大数据背景下的数据统计分析技术门类很多,常见的有:原创 2016-08-05 15:13:24 · 1500 阅读 · 0 评论 -
大数据分析技术研究报告(三-2)
作者:朱赛凡2) 并行计算引擎层(1) 并行计算形式并行化可以分为水平并行(无依赖并行)与垂直并行(流水线并行)两类。如下图: 如果两个操作OP1、OP2 无相互依赖关系,则称这两个操作相互独立。水平并行化指的是互相独立的多个操作或者一个操作内互相独立的多个子操作分别由不同的处理机并行执行的形式。例如,排序操作、扫描操作由不同处理机并行执行就是水平并行化的实例。原创 2016-08-05 15:23:31 · 2385 阅读 · 0 评论 -
大数据分析技术研究报告(三-3)
作者:朱赛凡3) 存储层数据存储层主要包括以下几类:一类是基于MPP数据库集群,这类系统特点是存储层与上层并型计算引擎是紧耦合,属于封闭性的系统。二是采用分布式文件系统,例如SharK、Stinger、HIVE、Impala、Scope等。Shark、Stinger、Hive、Imapla都采用HDFS文件系统作为存储层,Scope采用微软自己开发的分布式文件系统。此类原创 2016-08-05 15:38:19 · 2185 阅读 · 0 评论 -
大数据分析技术研究报告(四)
作者:朱赛凡四 大数据背景下数据分析挖掘技术介绍1 Mahout与MLlib项目数据分析挖掘主要涉及两个方面:一是数据预处理;二是数据挖掘。在数据预处理方面,根据掌握资料来看,大型互联网公司主要以MapReduce、Storm等计算框架为主,这些平台可以较好解决大数据预处理面临并行计算和处理灵活性的问题。但是个人认为spark、tez等属于MapReduce升级版本,因原创 2016-08-05 16:19:50 · 4178 阅读 · 0 评论 -
OLAP基础
基本概念 联机实时分析(OnlineAnalytical Processing, OLAP (/ˈoʊlæp/))技术是快速响应多维分(Multidimensionalanalysis, MDA)的一种解决方案。 首先,解释下什么是多维分析:多维分析是一种数据分析过程,在此过程中,将数据分成两类:维度dimensions)和度量(metrics/measurements)。维原创 2016-10-28 10:30:44 · 27180 阅读 · 0 评论 -
Druid.io系列(一):简介
Druid.io(以下简称Druid)是面向海量数据的、用于实时查询与分析的OLAP存储系统。原创 2016-10-28 13:51:09 · 8513 阅读 · 1 评论 -
Lucene底层原理和优化经验分享(2)-Lucene优化经验总结
系统优化遵从木桶原理:一只木桶能盛多少水,并不取决于最高的木板,而取决于最短的那块木板。Lucene优化也一样,找到性能瓶颈,找对解决方法,才能事半功倍,本文将从三方面阐述我们的Lucene优化经验: 1. 找准方向 -> Lucene性能瓶颈分析。 2. 找对方法 -> Lucene代码架构分析。 3. 方法落地 -> 优化经验总结。1. Lucene性能瓶颈分析 上篇Luce原创 2017-01-06 09:21:45 · 11750 阅读 · 11 评论