
hadoop
weixin_42333583
有啥好说的,还在学习阶段。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flume负载均衡版配置
flume负载均衡的意思:由node01 发送数据给node02 和node03 ,由他们俩分别轮询接收消息设置node01,在flume安装包的conf目录下新建load_balancer.conf#命名a1.sources = r1a1.channels = c1a1.sinks = k1 k2#设置资源a1.sources.r1.type = execa1.source...原创 2018-10-19 12:54:47 · 896 阅读 · 0 评论 -
flume_多sources配置
node01 ,node02 机器分别将监控其目录下的三个文件,如果三个文件发生变化就将数据发送给node03进行hdfs保存A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。第一步:配置node01和n...原创 2018-10-19 14:14:31 · 4342 阅读 · 0 评论 -
zookeeper客户端操作及JAVA代码操作CURD
总结:zookeeper相当于一个远程平台,我们可以将数据放在上面,他是一个树形结构,每一个节点称为一个Znode数据模型:每个节点或称为目录,都可以存放数据并且存放节点,有双重功能重点watch机制:ZooKeeper 中,引入了 Watcher 机制来实现这种分布式的通知功能 。总的来说可以概括 Watcher 为以下三个过程:客户端向服务端注册 Watcher、服务端事件...原创 2018-10-10 21:51:55 · 529 阅读 · 0 评论 -
MapReduce运行原理
MapTask运行的整个过程:1、默认通过TextInputFormat读取数据,数据都是存放在hdfs的某些block块上2、调用Map逻辑:默认一个block块对应一个切片,这个可以查看源码(TextInputFormat继承的父类里面就有原理),发现block块多大这个切片就多大。(1,2步骤就是从磁盘到内存的过程)3、数据写入环形缓冲区(开辟的一块内存),默认环形缓冲区大小是100M...原创 2018-10-20 23:56:19 · 225 阅读 · 0 评论 -
hive的三种连接方式
使用hive的三种方式第一种:hive的shell操作方式bin/hive第二种:Hive JDBC服务nohup bin/hive --service hiveserver2 &bin/beeline!connect jdbc:hive2://node03:10000第三种方式:hive命令bin/hive -e "HQL语句,多个语句用;隔开"; //-e表示直接写...原创 2018-10-20 23:58:17 · 4503 阅读 · 0 评论 -
hive的基本操作
Hive的基本操作 数据库的操作1 创建数据库操作create database if not exits myhive;默认将数据库和数据表放在hdfs的/user/hive/warehouse 目录下2 创建数据库或表,自定义在hdfs存放位置create database if not exi...原创 2018-10-21 00:06:24 · 206 阅读 · 0 评论 -
hive加载数据的几种形式
hive的数据导入1 直接插入,效率低insert into table XXX values(); 如果有分区的话就可以加上 partition(month='201809')2 通过load方式加载数据load data local inpath '/export/servers/hive-study-data/score.csv' overwrite into table sc...原创 2018-10-21 00:11:39 · 1602 阅读 · 0 评论