
大数据
世界上怎么可能没有迪迦
这里有你从来都没有见过的bug!
展开
-
HBase安装部署
第一步:下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压将我们的压缩包上传到Hado...原创 2019-12-12 08:47:45 · 264 阅读 · 0 评论 -
Apache ZooKeeper
1、Zookeeper基本知识1.1、ZooKeeper集群搭建Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举(基于Paxos算法的实现)能过得到多数的支持,所以ZooKeeper集群的数量一般为奇数。Zookeeper运行需要java环境,所以需要提前安装jdk。对于安装leader+follower模...原创 2019-12-09 21:51:21 · 402 阅读 · 2 评论 -
Sqoop导出
将数据从Hadoop生态体系导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。export有三种模式:默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式:Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法:$ sqoop export (generic-args) (expo...原创 2019-12-03 18:15:26 · 459 阅读 · 0 评论 -
Sqoop导入
“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS:$ sqoop import (generic-args) (import-args)Sqoop测试表数据在mysql中创建数据库userdb,然后执行参考资料中的sql脚本:创建三张表: emp雇员表、 emp_add雇员地址表、emp_...原创 2019-12-03 17:19:33 · 399 阅读 · 1 评论 -
Apache Sqoop
一、Apache Sqoop1.sqoop介绍**Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。**来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、H...原创 2019-12-03 16:55:45 · 205 阅读 · 1 评论 -
Hive基本操作
但是数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置。原创 2019-11-20 22:05:08 · 504 阅读 · 0 评论 -
Hive基本概念
1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太...原创 2019-11-19 21:13:39 · 326 阅读 · 0 评论 -
Guo某的大数据学习之路-第五天
今日学习内容:初始MapReduce计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算。Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据端5、多个数据副本MapReduce核心思想分...原创 2019-11-12 21:51:31 · 202 阅读 · 0 评论 -
ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException
今天在敲WordCount的时候,在运行过程中遇到了这个bug~19/11/12 08:48:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable19/11/12 08:48:21 E...原创 2019-11-12 09:59:36 · 640 阅读 · 0 评论 -
Guo某的大数据学习之路-第四天
内容回顾HDFS特性1.海量数据存储:HDFS可横向扩展,其存储的文件可以支持PB级别数据;2.高容错性:节点丢失,系统依然可用,通过数据保存多个副本,副本丢失后自动恢复;可构建在廉价(与小型机大型机比较)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随之增加);3.大文件存储:HDFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储;HD...原创 2019-11-05 14:49:04 · 243 阅读 · 0 评论 -
Guo某的大数据学习之路-第三天
DataNode作用1、执行数据的读写(响应的是客户端)2、周期性向NameNode做汇报(数据块的信息、校验和)若datanode 10分钟没有向NameNode做汇报,表示已丢失(已宕机)心跳周期 3秒 3、执行流水线的复制(一点一点复制)机架感知实际上需要工程师收到创建一个脚本(python sh ),脚本中记录主机IP和交换机的对应关系。配置的位置是core-site.xm...原创 2019-11-04 21:33:01 · 246 阅读 · 0 评论 -
关于Hadoop启动之后jps没有namenode节点的解决方法
安装完Hadoop集群的时候进行网页验证时发现并没有加载出来检查ip地址是否是namenode所在节点的ip发现ip地址对应上了,那我们运行一下jps,发现没有192.168.100.201这个节点下并没有namenode这时候我运行停止所有命令,发现Hadoop01节点没有namenode可以停止我怀疑问题出在了我多次格式化导致namenode启动不了这时候就需要删除原目录,即...原创 2019-11-01 09:57:27 · 41212 阅读 · 20 评论 -
Guo某的大数据学习之路-第二天
内容概要:今天向大家介绍一下大数据,以及大数据的特点同时,这也是我们学习大数据第二天的内容(下列内容均为课堂讲义)1、大数据概述传统数据处理介绍(了解大数据到来之前,传统数据的通用处理模式。)数据来源:1、企业内部管理系统 ,如员工考勤(打卡)记录。2、客户管理系统(CRM)数据特征:1、数据增长速度比较缓慢,种类单一。2、数据量为GB级别,数据量较小。数据处理方式:1、...原创 2019-10-25 14:53:09 · 2044 阅读 · 1 评论 -
初识大数据~
什么是大数据? 字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点? 海量化 数据量大(多) 多样化 结构化数据,半结构化数据,和非结构化数据 快速化 数据的增长速度快 高价值 海量数据价值高大数据能做什么? 1、海量数据快速查询 2、海量数据的存储(数据量大,单个大文...原创 2019-10-23 21:28:02 · 221 阅读 · 0 评论 -
Guo某的大数据学习之路-第一天
内容概要:今天主要讲两个知识点:服务器与RAID。同时,这也是我们学习大数据第一天的内容(下列内容均为课堂讲义)什么是服务器?笔记本台式机服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。由于服务器需要提供高可靠的服务,所以在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。...原创 2019-10-24 20:07:37 · 670 阅读 · 0 评论