
Big Data
Big Data
陈振阳
我翻开历史一查,这历史没有年代,歪歪斜斜的每页上都写着仁义道德四个字。我横竖睡不着,又仔细看了半夜,才从字缝缝里看出字来。满页都写着两个字是,吃人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Parquet
参考大数据开源列式存储引擎Parquet和ORC 深入分析Parquet列式存储格式 Apache Parquet原创 2017-12-31 02:39:38 · 2220 阅读 · 0 评论 -
Lamdba vs Kappa
参考大数据系统的Lambda架构 数据系统架构——Lambda architecture(Lambda架构) Lambda架构与推荐在电商网站实践 Kappa:比Lambda更好更灵活的实时处理架构 用于实时大数据处理的Lambda架构 Linkedln技术高管Jay Kreps:Lambda架构剖析 Lambda架构 vs Kappa架构原创 2018-01-01 01:52:31 · 638 阅读 · 0 评论 -
RDD专题
RDD是什么东西?在Spark中有什么作用?如何使用?1、RDD是什么(1)为什么会产生RDD?传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法(2)RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容原创 2014-05-17 17:00:03 · 936 阅读 · 0 评论 -
Druid and Imply
druid implydruid-io implydatadruid.io=druidcore{[broker+coordinator+historical]+[overlord+middleManager+node]}+tranquilityImply提供了从部署到配置到各种可视化工具的完整的解决方案; Imply=druid.io+datazoo+plywood+pivot+各种可视化工具原创 2017-12-31 22:28:26 · 2597 阅读 · 0 评论 -
Druid Tranquility
Druid Tranquility原创 2017-12-31 12:07:36 · 1147 阅读 · 0 评论 -
Druid.io系列
研究下了Druid,找个一个系列的博文,写的很好,非常适合快速入门。 Druid.io系列(一):简介 Druid.io系列(二):基本概念与架构 Druid.io系列(三): Druid集群节点 Druid.io系列(四):索引过程分析 Druid.io系列(五):查询过程 Druid.io系列(六):问题总结原创 2017-12-19 20:20:43 · 523 阅读 · 0 评论 -
Apache Storm
Apache Storm Dockerhub原创 2018-01-01 12:36:51 · 334 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapRe转载 2014-05-25 22:00:17 · 793 阅读 · 0 评论 -
ycsb测试hbase
1.安装hbase和zookeeper,zookeeper不能使用hbase内置的2.原创 2014-05-17 11:37:49 · 2266 阅读 · 1 评论 -
贝叶斯分类算法及其概率论基础
理论基础:1.先验概率:先验概率(prior probability)是指根据以往经验和分析得到的概率(典型的例子是概率论中应用题的已知条件),如全概率公式,它往往作为"由因求果"问题中的"因"出现。之所以称之为“先验”,是因为他不考虑任何B方面的因素。2.后验概率:后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的。是“执果寻因”问题中的"果"。先验概率与后验概率有不可分原创 2014-04-15 12:40:35 · 2875 阅读 · 0 评论 -
数据分析,展现与R语言学习笔记(2)
对a1进行直方图分析,a1为一个向量> hist(a$a1)绘制散点图> plot(a$a2,a$a3)列联表分析> table(a$a1) 68 71 72 74 75 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 1 1 3 1 2 1 3原创 2014-03-21 17:27:32 · 1932 阅读 · 0 评论 -
数据展现图表选择指南
数据展现图表选择指南原创 2019-08-18 22:34:51 · 368 阅读 · 0 评论 -
OLAP分类的基本概念和基本操作
OLAP存储分类OLAP存储有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP:表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描转载 2017-12-20 11:47:13 · 8605 阅读 · 0 评论 -
数据分析# 选择正确的展示图表
如何选择正确的图表类型 图表那么多,该选哪一个?(附终极选择指南) 一张图告诉你如何选择合适的图表(一) 一张图告诉你如何选择合适的图表(二) 如何选择最佳展示图表...原创 2018-08-20 17:07:34 · 1288 阅读 · 0 评论 -
Mahout中mahout-examples-0.9-job.jar例子运行记录
1.下载数据样本http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data2.将此数据文件拷贝到$MAHOUT_HOME3.启动hadoopstart-all.sh4.hadoop fs -mkdir testdata5.将数据上传到hdfshadoop原创 2014-03-04 16:36:30 · 4086 阅读 · 0 评论 -
运行Mahout分类算法,分析20newsgroup的分类过程
1.也就是classify-20newsgroups.sh#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work fo原创 2014-04-06 15:30:04 · 2684 阅读 · 0 评论 -
R2.15.3安装
1.更新源hadoop@ubuntu:~$ sh -c "echo deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu precise/ >>/etc/apt/sources.list"sh: 1: cannot create /etc/apt/sources.list: Permission deniedhadoop@ubuntu:~$原创 2014-03-19 22:05:43 · 2471 阅读 · 0 评论 -
RHadoop安装
环境:ubuntu12.04 64bitR2.15.3JDK1.6.x1.安装R,安装JDK2.安装rJava,reshape2等第一步,将java在系统中的相关配置传给Rhadoop@ubuntu:~/Desktop/rJava$ R CMD javareconfJava interpreter : /usr/java/jdk1.6.0_45/j原创 2014-03-19 23:20:42 · 2193 阅读 · 0 评论 -
数据分析,展现与R语言学习笔记(1)
> x1=c(1,2,3,4,5,6,7,8,9)//c()=产生一个向量> x1[1] 1 2 3 4 5 6 7 8 9> mode(x1)[1] "numeric"> length(x1)[1] 9> rbind(x1,x1)//整合连个向量,形成一个矩阵 [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]x1 1 2原创 2014-03-21 10:59:59 · 2109 阅读 · 0 评论 -
数据挖掘基础知识
数据挖掘分为预测型(predictive)和描述型(descriptive)两大类型。预测型数据挖掘是利用从历史数据中发现的已知结果,推断或预测未知数据的可能值。描述型属于挖掘是识别数据中的模式(pattern)或关系,旨在探索被分析数据的内在性质。根据对象的性质和需要解决的具体问题,可以采用不同的数据挖掘方法。预测型数据挖掘方法包括分类(classification)、回归分析(regress...原创 2019-06-04 14:45:37 · 1376 阅读 · 0 评论