
大数据
文章平均质量分 85
Chris_MZJ
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce结合WordCount详解
MapReduce技术引入大数据时代的数据分析任务比传统的数据分析任务要复杂,因为往往涉及的数据量巨大,比如要分析汇总某个大型零售商在全国的销售数据,查看某个搜索引擎的特定词条的访问日志… … 通常来讲,我们的笔记本电脑可以同时干很多事儿,比如听音乐,编辑Word文档,下载电影,这些都可以同时进行,为什么呢?因为这些程序任务处理的数据量规模小。而对于大规模的数据处理任务来说,就不是一台电脑同时做...原创 2018-10-17 10:43:27 · 612 阅读 · 0 评论 -
Spark的pipeline计算模式
Spark计算数据是基于pipeline模式的,在介绍spark如何进行pipeline计算之前首先介绍一些专业术语:Master(standalone):资源管理的主节点(进程)Cluster Manager:在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )Worker Node(standalone):资源管理的从节点(进程) 或者说管理本机资源的进程Ap...原创 2018-12-10 16:01:36 · 2148 阅读 · 0 评论 -
Spark计算的核心RDD
在SparkCore中的一切计算都是基于RDD的,那RDD是个什么东西呢?RDD是Resilient Distribute Dataset(弹性分布式数据集)的缩写,说白了,RDD可以理解为spark处理数据的基本单位,但是RDD又不是真实的存有数据,它只是具有操作数据的能力,相当于一个租房中介,中介手上掌握了一手的房源信息,而sparkCore就相当于租房子的人,一般直接找到房子不简单,所以我...原创 2018-11-18 16:12:39 · 999 阅读 · 0 评论 -
Spark集群搭建
准备工作spark集群(standalone模式)的搭建比较简单,搭建环境:5台CentOs6.5虚拟机:client,node01,node02,node03,node04集群规划:前置工作:各个节点配置好JDK,本次搭建使用的jdk版本:[root@node01 ~]# java -versionjava version "1.8.0_121"Java(TM) SE Runti...原创 2018-11-12 20:17:55 · 340 阅读 · 0 评论 -
Spark是什么
Spark是什么?引用官网(官方网址:http://spark.apache.org/)的一段话:Apache Spark™ is a fast and general engine for large-scale dataprocessing.Apache Spark is an open source cluster computing system that aims tomak...原创 2018-11-11 13:49:19 · 451 阅读 · 0 评论 -
Hive使用正则表达式读取数据
上一篇博客中hive中加载的数据都是比较规整的(Hive的基本操作:https://blog.youkuaiyun.com/Chris_MZJ/article/details/83713882),字段与字段之间都是分割好的,每一个字段都不是脏数据,并且每一个字段都是有意义的但是在真实场景中不见得这个尽人意。比如hive要读取以下格式的tomcat的运行日志:192.168.57.4 - - [29/Feb...原创 2018-11-11 12:46:48 · 3152 阅读 · 0 评论 -
Hive的表操作
hive基本上完全兼容sql语句的,所以操作hive的语法与sql类似原创 2018-11-10 20:50:09 · 1583 阅读 · 0 评论 -
HIve数据仓库应用及搭建
1、Hive是什么         Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗讲,其实HIVE就是一个原创 2018-10-26 19:36:52 · 1484 阅读 · 0 评论 -
基于HDFS的MapReduce计算框架
学习MapReduce的原理(https://blog.youkuaiyun.com/Chris_MZJ/article/details/83099262)之后,我们来看看MapReduce是如何在HDFS集群上实现的。分布式计算框架的思想一般都是计算找数据,这样能减少数据传输中的网络IO开销,可以将一个计算线程比作一个伐木工人,数据就是山上的树木,工人工作肯定是携带工具上山伐木的,而不能把山搬到工人的家中来...原创 2018-10-21 20:56:35 · 612 阅读 · 0 评论 -
分布式HDFS详解
       Hadoop的历史:           Hadoop的思想起源是Google当年发布三篇论文,GFS,Map-Reduce和BigTable。2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基原创 2018-10-15 16:45:22 · 420 阅读 · 0 评论 -
高可用HDFS完全分布式搭建
下面介绍高可用HDFS完全分布式的搭建步骤:第一步:在VmVare中安装四台CentOs6.5,主机名分别为node1,node2,node3,node4,(这样配置主机名是为了搭建的时候方便和节点关联)。第二步:分别配置这四台主机的网络。修改/etc/sysconfig/network-scripts/下的ifcfg-eth0文件,使ONBOOT=yes,BOOTPROTO=none,再添...原创 2018-10-14 19:17:34 · 476 阅读 · 0 评论 -
使用ECS搭建hdfs启动时报java.net.BindException: Problem binding to [node01:9000] java.net.BindException异常
是原创 2019-01-22 16:54:42 · 4741 阅读 · 5 评论