
Hadoop
QuietHRH
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
VMware SSH
VMware虚拟网络 网卡(网络适配器 network adapter) : 在网络上拥有独一无二的MAC地址 交换机 : 可以把一些电脑连接在一起组成一个局域网 虚拟网桥: 一个局域网与另一个局域网之间建立连接的桥梁。网桥两边网络拓扑地位一样 虚拟DHCP服务器: 给内部网络自动分配 IP 地址 作为对所有计算机作中央管理的手段。 虚拟net服务器( Network Address T...原创 2018-11-10 11:30:43 · 1015 阅读 · 0 评论 -
HDFS入门(二)
HDFS元数据 元数据 按类型分 文件, 目录自身的属性信息 文件的存储块信息 分块情况 副本个数 DN的信息 元数据 按形式分 内存元数据 包含hdfs最完整的数据 磁盘元数据 fsimage镜像文件 包含hdfs的所有目录和文件元数据信息, 但不包括文件块位置的信息, 文件块位置信息只存储在内存中, DN加入集群时, 汇报自己所拥有的块信息给NN, 并且一直更新 edit...原创 2018-11-25 22:47:04 · 262 阅读 · 0 评论 -
Yarn入门
Yarn入门 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度 yarn 并不清楚用户提交的程序的运行机制 yarn 只提供运算资源的调度(用户程序向 yarn 申请资源,yarn 就负责分配资源) ...原创 2018-11-25 22:46:24 · 743 阅读 · 0 评论 -
MapReduce入门(三)
MapReduce工作 MapTask InputFormat (默认 TextInputFormat)会通过 getSplits方法对输入目录中文件进行逻辑切片规划得到 splits,有几个切片就有几个maptask 将输入文件切分为splits之后 , 由 RecordReader 对 象(默认LineRecordReader)一行一行读, 返回kv对 Key 表示每行首字符偏移值...原创 2018-11-25 22:44:49 · 203 阅读 · 0 评论 -
离线计算流程
数据采集 Flume 收集服务器日志到hdfs type=taildir taildir可以监控一个目录, 也可以用一个正则表达式匹配文件名进行实时收集 taildir=spooldir + exec + 支持断点续传 agent1.sources = source1 agent1.sinks = sink1 agent1.channels = channel1 agent1.sour...原创 2018-11-25 22:43:16 · 1033 阅读 · 0 评论 -
MapReduce流量统计
MapReduce流量统计 源数据 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200 ...原创 2018-11-17 22:22:50 · 1168 阅读 · 1 评论 -
MapReduce入门 ( 二 )
MapReduce入门( 二 ) mr编程中, 利用好key的特性 排序 默认为字典序 分区 默认为key的哈希值对reducertask数量取模 分组 默认为key相同的为一组 在mr编程中,可以把上一个mr的输出目录直接作为下一个mr的输入 mr程序能够自动识别里面什么是检验性文件 什么是成功标识文件 什么是真正的数据文件 mr默认分区 源码: 类HashPartition mr...原创 2018-11-17 22:09:34 · 266 阅读 · 0 评论 -
MapReduce入门( 一 )
MapReduce入门 简介 mapreduce 分布式计算框架 核心思想: 分而治之 map : 将复杂任务拆分为多个小任务, 并行处理 ( 前提是各个小任务之间没有依赖关系) reduce : 将map阶段的结果进行汇总 核心功能: 将用户编写的业务逻辑代码和自带默认组件整合成完整的分布式运算程序, 运行在hadoop集群上 表现形式: 键值对的输入输出 框架结构: 一个...原创 2018-11-17 22:02:08 · 269 阅读 · 0 评论 -
数据仓库Hive入门( 二 )
数据仓库Hive入门( 二 ) hive是将结构化文件映射为一张数据表, 通过sql操作数据的 hive数据类型除了支持sql的类型外 还支持java类型 且大小写不敏感 DDL 结构化文件存放的位置 内部表 结构化文件存储在hive指定的hdfs文件夹 /user/hive/warehouse sql执行删除表操作时, 对应的hdfs文件夹也被删除, 数据清空 外部表 s...原创 2018-11-22 20:06:21 · 369 阅读 · 0 评论 -
数据仓库Hive入门( 一 )
数据仓库Hive入门(一) 数据仓库 数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建 数据仓库不生产数据,数据来源于外部(数据库,日志,爬虫等) 也不消费数据, 属于提供给外部应用使用 特性 面向主题 面向分析, ...原创 2018-11-19 23:12:25 · 233 阅读 · 0 评论 -
Flume入门
Flume入门 Flume 是 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件 Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后flume 在删除自己缓存的数据。 Agent三个组件 Source...原创 2018-11-19 23:10:26 · 318 阅读 · 0 评论 -
Hadoop入门
Hadoop入门简介及搭建 简介 Hadoop是apache旗下的用java语言实现的开源软件框架 狭义 : 是一个软件,框架 HDFS ( 分布式文件系统) 解决了海量数据的存储问题 YARN( 资源管理 任务调度) 解决了集群中资源管理的问题 MAPREDUCE( 分布式计算框架 ) 解决了海量数据的计算问题 广义 : hadoop是一个生态圈,是一个平台 特性 扩容能力 在可...原创 2018-11-14 21:18:46 · 188 阅读 · 0 评论 -
HDFS入门
HDFS入门 Hadoop Distribute File System hadoop分布式文件系统 分布式多台机器 解决文件存不下的问题 存储元数据 解决数据查询不方便的问题 分块存储 解决数据上传下载问题 副本机制 解决数据丢失安全问题 特性 主从架构 主节点从节点各司其职 分块存储 hadoop2....原创 2018-11-15 21:20:39 · 291 阅读 · 0 评论 -
ngnix+lua+js埋点 实现自定义日志采集
ngnix+lua+js埋点 实现自定义日志采集 1 收集数据的页面 js埋点: 在想要手机数据的页面预先放一段js代码, 当用户发生行为时, 触发js方法, 收集数据,发到后端 http://192.168.4.101/index.html 这里的index.html page1.html page2.html 放在101的tomcat中 在页面js中添加点击事件 点击事件触发后, ...原创 2018-11-13 21:00:09 · 1690 阅读 · 0 评论 -
Zookeeper
Zookeeper zookeeper是一个分布式协调服务的开源框架,解决分布式集群中应用系统的一致性问题 zookeeper本质是一个分布式的小文件存储系统,基于目录树方式 主从集群: 主角色 leader master 大哥 从角色 follower slave 小弟 主从角色各司其职,从角色要收到主角色的管理。(常见的是一主多从) 主备集群: 主角色 active...原创 2018-11-13 20:59:43 · 229 阅读 · 0 评论 -
Shell编程
Shell编程 shell是C语言写的程序 通过shell可以访问系统内核 shell既是命令语言, 又是程序设计语言 shell编程一般是指编写shell script脚本编程 shell编程只需要 文本编辑器和脚本解释器 bash是大多数linux默认的shell ( /etc/shells ) 基本格式 hello.sh 扩展名不影响脚本执行 见名知意 如果用php编写脚本 就用....原创 2018-11-10 16:25:07 · 242 阅读 · 0 评论 -
Linux加强
Linux加强 查找 grep 文本搜索工具,使用正则表达式搜索文本 grep [option] pattern [file] ps -ef | grep sshd 查找指定 ssh 服务进程 ps -ef | grep sshd | grep -v grep 查找指定服务进程,排除 grep 本身 ps -ef | grep sshd –c 查找指定进程个数 cat a.txt ...原创 2018-11-10 11:31:38 · 239 阅读 · 0 评论 -
Hadoop入门(二)
Hadoop Archives HDFS 并不擅长存储小文件,因为每个文件最少一个 block,每个 block 的元数据都会在 NameNode 占用内存,如果存在大量的小文件,它们会吃掉NameNode 节点的大量内存。 Hadoop Archives 可以有效的处理以上问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件。 类似压缩 shell命令 创建档...原创 2018-11-25 22:48:13 · 229 阅读 · 0 评论