
大数据
debimeng
这个作者很懒,什么都没留下…
展开
-
【大数据】HDFS之DataNode工作机制
DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 DataNode与NameNode之间有一个心跳事件,心跳是每3秒一次,心跳返回结果带有NameNode给该D...原创 2020-02-02 19:07:05 · 955 阅读 · 0 评论 -
【大数据】Sqoop简介
Sqoop简介Sqoop(发音:skup)是SQL-to-Hadoop的缩写,是一款开源的工具,主要用来在Hadoop和关系数据之间交换数据,可以改进数据的数据的互操作性。通过Sqoop,可以方便地将数据从MySQL、Oracle、PostgreSQL等关系数据库中导入Hadoop(比如导入到HDFS、Hbase或Hive中),或者将数据从Hadoop导出到关系数据库,使得传统关系数据...转载 2019-10-20 20:42:44 · 1588 阅读 · 0 评论 -
【大数据】impala与hive的比较
impala与hive的比较Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。 Impala相对于...转载 2019-06-02 22:14:35 · 2319 阅读 · 0 评论 -
【hive】Hive中4种排序的区别
Hive中4种排序的区别共有四种排序:order by,sort by ,distribute by,cluster byorder by 全局排序; 对输入的数据做排序,故此只有一个reducer(多个reducer无法保证全局有序); 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间; sort by 非全局排序; 在数...原创 2019-06-03 21:32:18 · 3830 阅读 · 0 评论 -
【hive】Hive中追加导入数据的4种方式
Hive中追加导入数据的4种方式从本地导入:load data local inpath '/home/st.txt' (overwrite) into table student;从Hdfs导入:load data inpath '/user/hive/warehouse/st.txt' (overwrite) into table student;查询导入:create ta...原创 2019-06-04 21:55:02 · 10874 阅读 · 0 评论 -
【hive】常用优化
Hive开启mapjoin优化、并行执行、动态分区1. mapjoin优化适合小表join大表set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡,默认falseset hive.auto.convert.join=true; //设置自动选择MapJoin,默认是trueset hive.auto.convert.join.noconditio...转载 2019-07-16 20:11:55 · 197 阅读 · 0 评论 -
【sqoop2】sqoop-1.99.7安装
sqoop2安装下载和解压http://ftp.wayne.edu/apache/sqoop/# tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz -C /opt# mv /opt/sqoop-1.99.7-bin-hadoop200 /opt/sqoop$ vi conf/sqoop.properties添加# 设置日志文件的目录0,%...原创 2019-09-30 08:08:58 · 186 阅读 · 0 评论 -
【sqoop】Linux环境下使用一个sh脚本将Mysql的表导入hive
Linux环境下使用一个sh脚本将Mysql的表导入hive前提条件已安装好hadoop+hive+mysql+sqoop;并在mysql下创建了一张表并插入数据,在hive里创建了一张空表--Mysql库建表并插入数据CREATE TABLE emp( id INT NOT NULL, name VARCHAR(100), deg VARCHAR(100), ...原创 2019-10-04 11:15:58 · 253 阅读 · 0 评论 -
【sqoop】Linux环境下sqoop-1.4.7安装
sqoop安装前提条件:已安装好hadoop+hive+mysql(或其他数据库,这使用mysql)一、安装下载和解压http://ftp.wayne.edu/apache/sqoop/# tar -zxvf sqoop-1.4.7-bin-hadoop200.tar.gz -C /opt# mv /opt/sqoop-1.4.7-bin-hadoop200 /opt/sqoop...原创 2019-10-04 18:19:13 · 513 阅读 · 0 评论 -
【sqoop】Linux环境下使用一个脚本将hive数据导出到mysql
文件名:sqoop_export_emp.sh,内容如下:#!/bin/shqueueName=job_name=#mysqlmysql_name=systemmysql_passwd=111111mysql_conn=jdbc:mysql://192.168.1.120:3306/mtest#目的表名:mysql表名export_table_name=emp_t;...原创 2019-10-05 07:09:06 · 423 阅读 · 0 评论 -
【大数据】hive优化之count(distinct)---(count(distinct) 原理)
Hive是Hadoop的子项目,它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛,用户不需要编写程序,通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成,极大程度地降低了开发成本。目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这...转载 2019-04-19 22:07:34 · 3381 阅读 · 0 评论 -
【大数据】CentOS7.6+Hadoop3.1四台机器高可用HA搭建
HA高可用搭建规划: NN-1 NN-2 DN ZK ZKFC JNNnode01 y y ynode02 y y y y ynode03 ...原创 2019-04-02 21:57:47 · 670 阅读 · 0 评论 -
【大数据】hadoop环境下如何将某文件夹下的文件按大小排序---顺序(查看某文件夹下最大的文件名)
hadoop环境下如何将某文件夹下的文件按大小排序---顺序(查看某文件夹下最大的文件名)场景:因平时经常需要知道hadoop文件系统里最大的文件有哪几个,故特此查找了一下命令。解决:hadoop版本:2.9.2(版本需要特别注意,因为低版本的有可能还没有那么多功能)查看-ls的使用方法:hadoop fs -ls --helpUsage: hadoop fs [generic ...原创 2019-03-28 22:31:15 · 5972 阅读 · 0 评论 -
【大数据_hive】内部表和外部表的区别
hive内部表和外部表的区别1.数据管理 内部表数据由hive管理;外部表数据由HDFS管理;2.存储位置内部表数据存储位置为默认的路径(/user/hive/warehouse);外部表数据存储位置由用户自定义;3.表删除删除内部表会直接删除元数据和存储数据;删除外部表仅仅删除元数据,HDFS上的文件不会删除; ...原创 2019-01-14 15:02:07 · 1512 阅读 · 0 评论 -
【bigdata】13个大数据应用案例,告诉你最真实的大数据故事
13个大数据应用案例,告诉你最真实的大数据故事 大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际上很多人都对大数据的应用模糊不清。现在就让我们从下面十三个大数据应用案例来了解下最真实的大数据故事把,并鲜明得了解大数据在生活当中实际应用的情况。大数据应用案例之电视媒体 对...转载 2019-01-10 08:49:45 · 4542 阅读 · 0 评论 -
【大数据_hadoop】hdfs dfs -ls和linux ls区别
hdfs dfs -ls和linux ls区别一般情况下hadoop的shell命令跟常用的linux系统的命令差不多。比如linux下的ls命令可以查看指定路径的目录结构(包括文件和文件夹),但ls命令只是查看其中的文件名称和文件夹名称,即简短格式;如需罗列文件和文件夹详细的信息(用户、组、时间、大小等),即长列表,需要使用ls -l或ll命令。hadoop环境下的-ls命令其实...原创 2019-02-02 15:34:41 · 3513 阅读 · 0 评论 -
【大数据】hadoop五大核心模块_20190205
hadoop五大核心模块来源:http://hadoop.apache.org/时间:20190205原文:ModulesThe project includes these modules: Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Distrib...原创 2019-02-05 07:57:46 · 1344 阅读 · 0 评论 -
【大数据】CentOS 6.8+Hadoop3.1.1伪分布式集群安装
CentOS 6.8下安装Hadoop3.1.1伪分布式集群安装描述:在一台虚拟机中的Linux机器安装hadoop3.1伪分布式集群环境和软件相关:系统: CentOS 6.8IP:192.168.1.31JDK版本:JDK1.8JDK安装包全名:jdk-8u201-linux-x64.tar.gzHadoop安装包全名:hadoop-3.1.1.tar.gz一、环境配置...原创 2019-02-06 21:27:58 · 527 阅读 · 0 评论 -
【大数据】CentOS 6.8下安装Hadoop3.1.1完全分布式集群安装
CentOS 6.8下安装Hadoop3.1.1完全分布式集群安装描述:在四台虚拟机中的Linux机器安装hadoop3.1完全分布式集群。环境和软件相关:系统: CentOS 6.8机器1:主机名-node01;IP-192.168.1.32机器2:主机名-node02;IP-192.168.1.33机器3:主机名-node03;IP-192.168.1.34机器4:主机名-...原创 2019-02-08 07:21:31 · 1033 阅读 · 0 评论 -
【大数据】C7.6+H2.6.0伪分布式安装
C7.6+H2.6.0伪分布式安装一、环境:系统: CentOS 7.6Hadoop版本: 2.6.0JDK版本: 1.7.0_80安装目录: /opt主机名: hadoopIP: 192.168.1.65 --因是伪分布式的,故只有一台机器用...原创 2019-03-31 11:00:18 · 238 阅读 · 0 评论 -
【大数据】hadoop查看指定目录最大的五个文件(文件夹算总体的一个文件)
hadoop查看指定目录最大的五个文件(文件夹算总体的一个文件)场景:在hadoop不同版本多次尝试查看最大的几个文件后总结出最终版本。解决:系统 CentOS7.6[hadoop@hd hadoop]$ hadoop fs -du / | sort -nr | head -n 5 --查看/目录下最大的五个文件,其中mmtst为文件...原创 2019-03-31 11:22:35 · 1377 阅读 · 0 评论 -
【大数据】于hadoop 3.1高可用HA环境下安装hive3.1
Hive3.1.1安装环境:Hadoop: 3.1.1四台HA高可用JDK: 1.8MySQL: 5.7.24(安装在远程机器)Hive: 3.1.1MySQL驱动: mysql-connector-java-5.1.46-bin.jar前提条件是hadoop环境已安装好,mysql数据库已安装好...原创 2019-04-07 16:23:43 · 1051 阅读 · 0 评论 -
【大数据】Hadoop大数据学习路线
Hadoop大数据学习路线作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。1 第一阶段:Hadoop生态架构技术学习完第一阶段的知识,已经可以从事大数据架构相关的工作,可以在企业中负责某些或某个的开发与维护工作。1.1 语言基础...转载 2019-01-11 23:23:08 · 276 阅读 · 0 评论