
大数据
yinni11
这个作者很懒,什么都没留下…
展开
-
五种大数据处理架构
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取...转载 2018-10-20 11:38:37 · 583 阅读 · 0 评论 -
Cloudera's Distribution for Hadoop
现在的公司使用的是Cloudera的hadoop分布式平台,在此记录一笔,做后续的学习知识点! Cloude Manager概述: CDH是Cloudera公司对整体hadoop集群环境进行监控与管理的企业级大数据管理平台 ...原创 2019-01-14 10:35:11 · 456 阅读 · 0 评论 -
深入理解mongodb和hbase区别
最近公司想要做数据分析,之前我们公司用的是免费的growing IO。他们分析仅限于界面跳转的转化率,不能详细地分析业务数据。我研究了一个需要埋点的产品,搞明白他们是在每个接口的调用埋点,将用户对接口的调用行为记录下来,进行分析。由于接口众多,每个接口的数据都不同。可以充分利用hbase宽表的特性,在一行中定义一个通用的字段来标示当前行的数据类型,操作人,然后定义不同的字段来记录每一...转载 2019-01-23 11:02:48 · 494 阅读 · 0 评论 -
大数据之 --- Cloudera Manager平台的理解
现有公司使用的是Cloudera Manager平台。结点Cluster 1(CDH 5.7.0,Parcel)主要包含Hbase、HDFS、Hive、Hue、Kafka、Oozie、Sqoop 1 Client以及YARN(MR 2 Included和Zookeeper) Hive主要是通过HQL语句做查询,做复杂的查询,产生批处理语句,做离线查询,给YARN做运算。旧版的Hive只能做查询...原创 2019-03-25 21:13:05 · 191 阅读 · 0 评论 -
项目中使用的Hbase
1.org.apache.hadoop.hbase.client; 使用的架包是:hbase-client-1.3.1.jar原创 2019-04-29 14:27:46 · 242 阅读 · 0 评论 -
Hadoop之Hadoop核心HDFS
---第1章初识大数据 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. 回到顶部 ---第2章Hadoop核心HDFS Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案,Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算) 存储是大数据技术的基础,分布式计算是大数据应用的解决方案 HDFS基础架构:...转载 2019-06-20 15:37:17 · 174 阅读 · 0 评论 -
Hadoop之命令
1.读取Hdfs上某个目录下的数据 hadoop fs -cat /user/aaa/ccc/ddd/eee/fff/gg/* 2. 查看Hdfs上某个目录中的文件 hadoop fs -ls /user/aaa/ccc/ddd/eee/fff/gg/900 3.将show.log放到 /user/aaa/bbb/ccc/ddd/eee/800目录下 hadoop fs -pu...原创 2019-07-04 10:16:00 · 172 阅读 · 0 评论