
hadoop
文章平均质量分 79
Alwaysdazz
puge
展开
-
HIVE工作流程
HIVE是什么?Hive是hadoop上处理结构化数据的数据仓库基础工具,用来处理存储在hadoop上的海量数据,使用hive可以使查询和分析变得更简单。Hive起初是有facebook开发,后来贡献给apache基金会的,apache对它做了进一步的开发并开源。Hive不合适做哪些事情?1.hive不是一个关系型数据库2.Hive不适合做为在线事务处理(OLTP)的系统3.Hive不...原创 2019-10-31 17:35:56 · 534 阅读 · 0 评论 -
Hdfs架构
Hadoop文件存储的基础是HDFS(Hadoop Distributed File System),HDFS的实现依赖于NameNode和DataNode,DataNode用来存储具体数据,NameNode用来管理多个DataNode中分别存储的是什么。理解起来也不难,因为HDFS是分布式的文件系统,也就是有很多机器用来存储数据,一个大文件可能分布在多个机器上,也可能是一台机器上,具体分布在哪...原创 2019-10-31 17:35:33 · 135 阅读 · 0 评论 -
hiveDDL建表语句
从本地文件拷贝到数据库(load用法)load data local inpath ‘/home/alwaysdazz/3.txt’ into table hadoop如果文件已经在hdfs上,则load就变成了移动命令即使自己使用hadoop命令 put到hdfs上的hadoop目录 hive也能查询出(既 select * from hadoop)可以查出在该目录下的所有表如果随意上传...原创 2019-10-31 17:35:17 · 264 阅读 · 0 评论 -
Hbase常用SQL-DDL与DML汇总
Hbase是一个非关系型,面向列族的数据库,其插入和查询的性能远高于一般关系型数据库,下面主要来看一下一些常用的sql.一、ddl操作创建一个表create ‘table1’, ‘tab1_id’, ‘tab1_add’, ‘tab1_info’列出所有的表list获得表的描述describe ‘UBA.VISITOR’删除一个列族disable alter enable...原创 2019-10-23 15:51:47 · 146 阅读 · 0 评论 -
Hbase过滤器
package HbaseApi; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apache.hadoop.hbase.filter.*; import org.ap...原创 2019-10-31 17:25:03 · 82 阅读 · 0 评论 -
Hbase协处理器 ,二级索引 put一个表另一个表也会有数据
package HbaseApi;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Durability;import org....原创 2019-10-31 16:50:51 · 115 阅读 · 0 评论 -
Sqoop Import原理
Sqoop Import详细流程讲解Sqoop在import时,需要指定split-by参数。Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中。每个map中再处理数据库中获取的一行一行的值,写入到HDFS中(由此也可知,导入导出的事务是以Mapper任务为单位)。同时split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqo...原创 2019-10-23 15:49:12 · 165 阅读 · 0 评论 -
sqoop语句
导入指定输出路径、指定数据分隔符sqoop import --connect jdbc:mysql://hadoop01:3306/test --username root --password root --table temp --target-dir ‘/123’ --fields-terminated-by ‘\t’(mysql必须要设置主键才能成功,123不能存在)指定Map数量 -...原创 2019-10-23 15:49:51 · 181 阅读 · 0 评论 -
用hbase使用mapreduce计算架构计算rowkey行数
package HbaseApi.MapreduceApi;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.clie...原创 2019-10-31 16:51:20 · 120 阅读 · 0 评论 -
用hbase使用mapreduce将数据大批量上传到表中
package HbaseApi.MapreduceApi;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbas...原创 2019-10-31 16:52:08 · 192 阅读 · 0 评论 -
Hbase热点产生及解决办法
HBase热点什么是热点HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于scan。然而糟糕的rowkey设计是热点的源头。 热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。 大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不...原创 2019-10-31 16:49:31 · 393 阅读 · 0 评论 -
Hbase数据库各需求解决方案优化
抖音hbase库表设计1.需求①如何查看某红人的粉丝②如何查看某红人的粉丝数③如何确定此粉丝是某红人的吗④某红人的粉丝是否关注了此红人⑤有多少粉丝和此粉丝关注的红人数及红人一样解决方案①将红人的姓名作为rowkey,列限定符为自增张,粉丝的姓名作为key,遍历此rowkey可以得到,但性能极低不合适②将红人的姓名作为rowkey,列限定符为自增张,粉丝的姓名作为key,在表...原创 2019-10-31 16:52:29 · 114 阅读 · 0 评论 -
Hbase框架结构上
namenode时,会导致datanode的id不相同无法启动。解决办法是将name的classid复制到/hadoop/hdfs/data/current/VERSION里面的clusterID=CID-809a0ce3-839d-42ba-9171-a955ae276820hbase:metaHbase:meta(以前叫做meta),主要储存系统中的region信息,而他却被zookee...原创 2019-10-31 16:53:43 · 152 阅读 · 0 评论 -
flume配置详解
#名为agent 别名为a1,agent的source为r1,sinks的k2是hdfs k3是hbase,channels是c1a1.sources = r1a1.sinks = k1 k3a1.channels = c1a1.sources.r1.type = TAILDIR#监听文件类型a1.sources.r1.filegroups = f1#文件的组别名为f1a1.sourc...原创 2019-10-31 17:25:44 · 143 阅读 · 0 评论 -
Hbase架构下
Hbase架构下Hbase内存大小默认为32G或64G。一般的,我们设计Hbase时考虑的是在每个服务器上面运行少量(20-200)但是相对于数量来说较大容量(5-20G)的regions。所以我们需要考虑以下因素MSLAB (MemStore-local allocation buffer) 如果每个MemStore有2MB的缓存(注意是每个列簇2M的缓存),如果你有1...原创 2019-10-31 16:53:51 · 102 阅读 · 0 评论 -
hive性能优化
Hive性能优化 1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相...转载 2019-10-31 16:57:41 · 118 阅读 · 0 评论 -
MapReduce优化
mapreduce优化mapreduce跑的慢的原因(io操作优化)1.map数过多2.reduce数分配不合理 一般十万的数据量一个reduce就可以了3.数据倾斜4.小文件过多5.spill次数过多(壹写次数过多发生大量本地io)6.merge次数过多(数据归并且排序)输入阶段mapreduce优化主要从6个方面考虑数据输入,map阶段,reduce阶段,i...原创 2019-10-31 16:58:15 · 129 阅读 · 0 评论 -
HBase - Filter - 过滤器的介绍以及使用
1 过滤器HBase 的基本 API,包括增、删、改、查等。增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filter)来查询。1.1 过滤器的两类参数过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,基于 H...原创 2019-10-31 16:54:27 · 130 阅读 · 0 评论 -
HBase性能优化
HBase性能优化zookeeper.session.timeoutRegionServer与Zookeeper间的连接超时时间。默认3分钟。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优这个timeout决定了Re...原创 2019-10-31 16:54:43 · 89 阅读 · 0 评论 -
搭建本地源
1.先将iso镜像文件放到rs0驱动目录里2.再将iso镜像文件挂在到目录 /media(mount xx.iso /media)3.到/etc/yum.repos.d/下面将网络源移到rep.bak目录里(因为网络源与本地源会发生冲突,这里将网络源全部存放起来)4.建立一个文件里面的内容设置为[name]//本地源的名字name=xxx//本地源的简介baseurl=file:///...原创 2019-03-31 19:08:56 · 407 阅读 · 0 评论 -
yarn执行流程图
那天在集群中跑一个MapReduce的程序时,在机器上jps了一下发现了每台机器中有好多个YarnChild。困惑什么时YarnChild,当程序跑完后就没有了,神奇。后来百度了下,又问问了别的大佬。原来是这样什么是YarnChild:答:MrAppmaster运行程序时向resouce manager 请求的maptask/reduceTask。也是运行程序的容器。其实它就是一个运行程序的...原创 2019-10-31 16:58:43 · 140 阅读 · 0 评论 -
mongodb java api增删改查
package mdb;import com.mongodb.MongoClient;import com.mongodb.client.FindIterable;import com.mongodb.client.MongoCollection;import com.mongodb.client.MongoCursor;import com.mongodb.client.MongoD...原创 2019-04-10 19:37:21 · 301 阅读 · 0 评论 -
深入剖析zookeeper原理
转 深入剖析zookeeper原理 2017年10月15日 12:02:59 东天里的冬天 阅读数:1769 一.简介Zo...转载 2019-10-31 16:59:35 · 96 阅读 · 0 评论 -
mongodb遇到dbpath (/data/db) does not exist如何解决
mongod --help for help and startup options 2014-07-18T16:08:54.403+0800 [initandlisten] MongoDB starting : pid=10296 port=27017 dbpath=/data/db 64-bit host=hs-mac-air 2014-07-18T16:08:54.403+0800 ...原创 2019-04-08 09:55:34 · 3551 阅读 · 0 评论 -
spark算子
<div id="post_detail" class="cye-lm-tag"> Spark算子总结及案例 spark算子大致上可分三大类算子: 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transforma...转载 2019-10-31 17:02:26 · 122 阅读 · 0 评论 -
Spark运行基本流程
问题导读1.Spark运行包含哪些流程?2.本文认为Spark运行架构有哪些特点?3.DAGScheduler的作用是什么?4. RDD在Spark架构中是如何运行的?5.Spark on Standalone运行包含哪些过程?1.Spark运行基本流程参见下面示意图 1.构建Spark Application的运行环境(启动SparkContext),SparkCo...原创 2019-10-31 17:03:42 · 295 阅读 · 0 评论 -
mongodb
数据库 集合 文档show databases显示数据库show collections 显示数据库里的集合use test 选择test数据库 如果此库不存在 在里面插入文档则系统会自动创建test库mongdb会自动生成文档数据id 保证唯一性id属性可以自行指定 数据库就不会添加了db.student.insert( {_id:“hello”,name:“wukong”,age:...原创 2019-04-03 19:32:55 · 158 阅读 · 0 评论 -
hive元数据表结构详情
原文地址:https://mp.weixin.qq.com/s?__biz=MzA3ODUxMzQxMA==&mid=2663993556&idx=1&sn=0e5291bd63426d747f32a7fd05128caa&scene=21#wechat_redirect元数据是...转载 2019-10-31 17:27:28 · 108 阅读 · 0 评论 -
hive的数据存储(元数据,表数据)和内部表,外部表,分区表的创建和区别作用
转载https://blog.youkuaiyun.com/csdnliuxin123524/article/details/81052974 hive的数据存储:首先弄清楚什么是元数据和表数据:元数据就是表的属性数据,表的名字,列信息,分区等标的属性信息,它是存放在RMDBS传统数据库中的(如,mysql)。表数据就是表中成千上万条数据了。hive的存储过程:启动hive时...转载 2019-10-31 17:28:23 · 215 阅读 · 0 评论 -
yarn的三种调度器
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调度器...原创 2019-10-31 17:28:51 · 168 阅读 · 0 评论 -
hive之间的各种join和使用
转自https://blog.youkuaiyun.com/qq_26442553/article/details/79465608hive编程是整个数据仓库操作的核心,而各种业务之间的join是hive的核心,所以熟练明白滴掌握hive中的各种join是数据仓库开发工程师必备的技能。hive中的join只支持等值join,也就是说join on中的on里面表之间连接条件只能是=,不能是<,>...原创 2019-10-31 17:29:09 · 118 阅读 · 0 评论 -
hive数据抽样的方法
块抽样(Block Sampling)Hive 本身提供了抽样函数,使用 TABLESAMPLE 抽取指定的 行数/比例/大小,举例:CREATE TABLE iteblog AS SELECT * FROM iteblog1 TABLESAMPLE(1000 ROWS);CREATE TABLE iteblog AS SELECT * FROM iteblog1 TABLESAMPLE (...原创 2019-10-31 17:29:43 · 192 阅读 · 0 评论 -
hive分桶之BUCKET详解
Bucket对于每一个表(table)或者分区(partition), Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Bucket)有两个理由:(1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用...转载 2019-10-31 17:00:25 · 145 阅读 · 0 评论 -
数据仓库中mysql,hive,hdfs,mapreduce之间的关系
一.什么是Hive与其特点官网介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。 也就是说:hive数据仓库软件使用sql读取、写入和管理驻留在分布式存储中...原创 2019-10-31 17:00:59 · 176 阅读 · 0 评论 -
spark面试题基础
Hadoop/Spark相关面试问题总结面试回来之后把其中比较重要的问题记了下来写了个总结:(答案在后面)1、简答说一下hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和spark的都是并行计算,那么他们有什么相同和区别4、为什么要用flume导入hdfs,hdfs的构架是怎样的5、map-reduc...原创 2019-10-31 17:04:53 · 137 阅读 · 0 评论 -
spark面试
首发于Oscar 的大数据日记关注专栏写文章Spark面试题(一)runzhliu丁香园 大数据研发工程师42 人赞同了该文章这部分的关于 Spark 的面试题是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,做一下总结,另外这个总结里面有参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除,再次感谢各位提供的资料,真...转载 2019-10-31 17:06:21 · 308 阅读 · 0 评论 -
Spark简介及运行流程图文解说
原 Spark简介及运行流程图文解说 2018年06月20日 16:15:02 咸鱼出击 阅读数:565 ...原创 2019-10-31 17:30:58 · 146 阅读 · 0 评论 -
kafka详解
kafka总结主要应用场景为流式计算,提供发布订阅的流式平台自身不会产生数据只是平台kafka的优点 吞吐量大 延迟低topic(主题)含有 k v 时间戳 key可以为空 创建topic指定分区 分区可以变多但不能变少kafka服务只有一个进程broker没有主从之分 主从都只有broker 服务没有主从但是却有主备节点之分,主节点leader工作和生产者沟通和消费者沟通,从节点flo...原创 2019-10-23 15:13:42 · 216 阅读 · 1 评论 -
kafka的优点和新特性
1.主要是用来解决百万级别的数据中生产者和消费者之间数据传输的问题2.可以将一条数据提供给多个接收这做不同的处理3.当两个系统是隔绝的,无法通信的时候,如果想要他们通信就需要重新构建其中的一个工程,而kafka实现了生产者和消费者之间的无缝对接。4.大数据时代,最重要的是数据的收集和分析,这些数据包括:1).用户的行为数据2).应用工程的性能数据3).日志的用户活动数据等5.kafk...原创 2019-10-31 17:06:56 · 137 阅读 · 0 评论 -
kafka设计原理与理解
原 Kafka 设计与原理详解 2015年08月28日 16:36:32 Heaven-Wang 阅读数:106323 </div> <div class="operating">...原创 2019-10-31 17:07:40 · 162 阅读 · 0 评论