- 博客(25)
- 收藏
- 关注
原创 大数据之Hadoop(MapReduce(四))------->企业优化
6.1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。6.2 MapR
2018-01-04 21:23:25
442
原创 大数据之Hadoop(MapReduce(三))
四 Hadoop数据压缩概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源
2018-01-03 19:20:34
422
原创 大数据之Hadoop(MapReduce(二))
3.3MapTask工作机制 3.3.1 并行度决定机制1)问题引出maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢?2)MapTask并行度决定机制 一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。3.3.2 MapTask工作机
2017-12-29 13:45:59
496
原创 大数据之Hadoop(MapReduce)
一 MapReduce入门1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架.Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程。它简单的实现一些接口,就
2017-12-29 12:51:20
2243
原创 HDFS的数据流
HDFS写数据流程4.1.1 剖析文件写入1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2
2017-12-28 22:53:21
541
原创 大数据之hadoop(文件系统HDFS)
一 HDFS概述1.1 概念HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2 组成1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)Nam
2017-12-28 20:27:49
1550
原创 完全分布式部署hadoop
3.3 完全分布式部署Hadoop分析: 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装jdk 3)配置环境变量 4)安装hadoop 5)配置环境变量 6)安装ssh 7)配置集群 8)启动测试集群3.3.1 虚拟机准备详见2.2-2.3章。3.3.2 主机名设置详见2.4章。3.3.
2017-12-28 19:50:22
511
原创 进入大数据
一 从Hadoop框架讨论大数据生态1.1 Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 Hadoop发展历史1)Lucene--Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功
2017-12-28 19:34:14
429
原创 大数据之Hive<八.2>
8.5.5 主流文件存储格式对比实验从存储文件的压缩比和查询速度两个角度对比。存储文件的压缩比测试:0)测试数据1)TextFile(1)创建表,存储数据格式为TEXTFILE create table log_text ( track_time string, url string, session_id string, referer string, ip string, en
2017-12-28 17:51:12
268
原创 大数据之Hive<七>
七 函数7.1 系统自带的函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2)当H
2017-12-28 17:47:07
155
原创 大数据之Hive<九>企业级调优
9.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT *FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默
2017-12-27 21:01:03
941
原创 大数据之Hive<八.1>
八 压缩和存储8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备1)CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2)jar包准备(hadoop源码、JDK8 、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-l
2017-12-27 20:53:24
232
原创 大数据之Hive<六.2>
6.4 Join语句6.4.1 等值JoinHive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。案例实操(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门编号;hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d
2017-12-27 20:52:22
269
原创 大数据之Hive<六>
六 查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTI
2017-12-27 20:51:43
243
原创 大数据之Hive<五>
五 DML数据操作5.1 数据导入5.1.1 向表中装载数据(Load)1)语法hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据
2017-12-27 20:47:29
217
原创 大数据之Hive<四>
四 DDL数据定义4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive> create database db_hive;FAILED: Execution
2017-12-27 20:46:49
487
原创 大数据之Hive<三>
三 Hive数据类型3.1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdou
2017-12-27 20:46:07
266
原创 大数据之Hive<二>
2.4 MySql安装2.4.1 安装包准备1)查看mysql是否安装,如果安装了,卸载mysql (1)查看 [root@hadoop102 桌面]# rpm -qa|grep mysqlmysql-libs-5.1.73-7.el6.x86_64 (2)卸载 [root@hadoop102 桌面]# rpm -e --nodeps mysql-l
2017-12-27 20:45:26
285
原创 大数据之Hive<一>
一 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的优缺点1.
2017-12-27 20:44:37
724
原创 大数据之Hive之扩展项目Youtube案例<三>
3.5、准备工作3.5.1、创建表创建表:youtube_ori,youtube_user_ori,创建表:youtube_orc,youtube_user_orcyoutube_ori:create table youtube_ori( videoId string, uploader string, age int, category array, length
2017-12-27 20:43:54
1324
原创 大数据之Hive之扩展项目Youtube案例<二>
该项目的pom.xml文件: xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.z youtube 0.0.1-SNAPSHOT jar yout
2017-12-27 20:42:44
611
原创 大数据之Hive之扩展项目Youtube案例<一>
需求:统计Youtube视频网站的常规指标,各种TopN指标:--统计视频观看数Top10--统计视频类别热度Top10--统计视频观看数Top20所属类别包含这Top20视频的个数--统计视频观看数Top50所关联视频的所属类别Rank--统计每个类别中的视频热度Top10--统计每个类别中视频流量Top10--统计上传视频最多的用户Top10以及他们上传的视频--统计每个类别视频观看数Top1
2017-12-27 20:39:30
1537
原创 大数据之Sqoop <三>
5.2.5、命令&参数:import将关系型数据库中的数据导入到HDFS(包括Hive,HBase)中,如果导入的是Hive,那么当Hive中没有对应表时,则自动创建。1) 命令:如:导入数据到hive中$ bin/sqoop import \--connect jdbc:mysql://linux01:3306/company \--username root \--password 12345
2017-12-27 20:37:26
540
原创 大数据之Sqoop <二>
五、Sqoop一些常用命令及参数5.1、常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hive-tableCreateHi
2017-12-27 20:35:59
472
原创 大数据之Sqoop <一>
Sqoop简介Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.Sqoop successfully grad
2017-12-27 20:27:24
269
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人