
Hadoop从零开始(基于hadoop2.x版本)
文章平均质量分 77
且听_风吟
你还年轻,去爱去恨去相信,去追去梦去后悔。生命就该浪费在美好的事物上,还有资本,别怕失败。
展开
-
hadoop从零开始--HDFS篇
一、HDFS体系结构与基本概念珍惜生命,拒绝废话! 一句话概括:HDFS是distributed file system的简写,是众多分布式文件管理系统中的一种,不适合小文件,重要的事情再说一遍,不适合小文件。 二、HDFS的shell操作 这里总结大部分常用命令,不再过多解释,建议有linux基础的情况下学习。 1、基础命令 hdfs dfs -ls / 查看HDFS根目录 hdfs原创 2017-03-21 21:47:57 · 1669 阅读 · 0 评论 -
hadoop 2.5 分布式集群安装配置
配置规划: NN DN ZK ZKFC JN RM NMNode1 1 1 1 1 Node2 1 1 1 1 1 1 Node3 1 1 1 1 Node4 1 1 1 补充:克隆虚拟机出现网卡不识别 需要原创 2017-03-22 11:12:55 · 478 阅读 · 0 评论 -
hadoop从零开始--linux基础命令篇
linux基础命令篇一、man_page1.内部命令:echo查看内部命令帮助:help echo 或者 man echo2.外部命令:ls查看外部命令帮助:ls --help 或者 man ls 或者 info ls3.man文档的类型(1~9)man 7 manman 5 passwd4.快捷键:ctrl + c:停止进程ctrl原创 2017-03-23 11:40:16 · 906 阅读 · 0 评论 -
hadoop从零开始--linux常见错误及hadoop配置相关
linux常见错误及hadoop配置相关批量自动删除rpm包:rpm -qa | grep mysql | while read c; do rpm -e $c --nodeps; doneminimal最小化安装eth0默认没有自启用修改配置文件onboot=true修改静态地址后发现无法ping外网需要设置网关route add default gw原创 2017-03-23 11:48:19 · 550 阅读 · 0 评论 -
hadoop从零开始--linux下jdk,tomcat,mysql的安装
1. 安装JDK1.上传jdk-7u45-linux-x64.tar.gz到Linux上2.解压jdk到/usr/local目录tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/local/3.设置环境变量,在/etc/profile文件最后追加相关内容vi /etc/profileexport JAVA_HOME=/u原创 2017-03-23 11:55:31 · 668 阅读 · 0 评论 -
IP转长整数方法
在分析网站的客户来源经常会要求根据客户的ip地址去判断客户国家位置或者城市位置。当然要做到这一步,你要有一个详细的ip地址库。ip地址库中一般是通过ip地址转换来的数字(长整数)来划分国家或者城市。ip地址库数据库的一般格式为:...startIpLongNumber endIpLongNumber CountryName CountryCode CityName...而在应用...原创 2018-08-09 20:09:49 · 2698 阅读 · 0 评论 -
awk命令总结--实战篇
在大数据实际的开发工作中,经常要在linux下进行查看日志字段和数据校验查询等操作,所以awk命令是必不可少的,本文不扯生涩无用的基本理论用法等,只通过操作实例来展现awk命令的方方面面。读者可以结合awk命令基础篇来学习基础命令,然后结合本文进行练习,以求熟练掌握awk。点击查看:awk命令总结--基础篇Linux Web服务器网站故障分析常用的命令系统连接状态篇:1.查看TCP...原创 2018-08-15 11:04:57 · 959 阅读 · 0 评论 -
awk命令总结--基础篇
在我们进行实际的大数据开发工作中,尤其是涉及数据统计方面的日志分析业务中,经常需要用到awk来实现一系列的日志字段分析操作。本文介绍awk及相关命令的基础知识及使用,读者在学习后可以结合实战篇进行实际业务的操作学习,已经具备基础知识的读者可以直接查看实战篇。点击查看:awk命令总结--实战篇 awk的输出:一、printprint的使用格式: print item1, ...原创 2018-08-15 11:14:34 · 1522 阅读 · 1 评论 -
Kafka总结
一、本质一种分布式的、基于发布/订阅的消息系统 二、Kafka的特点– 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java、php、python、c++ ……– 实时性:生产者生产的message立即被消费者可见 三、Kafka架构3.1 Broker(中介)• 每...原创 2018-08-16 16:53:43 · 815 阅读 · 0 评论