
linux&hadoop
文章平均质量分 75
cz-神算子
hadoop技术狂热者,熟练使用hadoop、zookeeper、hbase、mahout、hive、sqoop、flume、kafka、storm等
展开
-
>/dev/null 2>&1 的作用
shell中可能经常能看到:>/dev/null 2>&1 命令的结果可以通过%>的形式来定义输出 /dev/null 代表空设备文件 > 代表重定向到哪里,例如:echo "123" > /home/123.txt 1 表示stdout标准输出,系统默认值是1,所以">/dev/null"等同于"1>/dev/null" 2 表示stderr标准错误 & 表示等同转载 2015-10-05 17:48:24 · 489 阅读 · 0 评论 -
Linux下crontab的使用
编辑:crontab –u root –e 列表:crontab –u root –l 删除:crontab –u root –r 每五分钟执行 */5 * * * *每小时执行 0 * * * *每天执行 0 0 * * *每周执行 0 0 * * 0每月执行 0 0 1 * *转载 2015-10-05 18:08:56 · 252 阅读 · 0 评论 -
Redis
RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。简介redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string转载 2015-10-05 18:17:21 · 407 阅读 · 0 评论 -
hadoop2 resourcemanager 主备切换
Hadoop主备查询和切换(1)主备查询hdfs haadmin -getServiceState nn1yarn rmadmin -getServiceState rm1 (2)主备切换在Hadoop的各种HA中,有个隐藏属性是很多人不知道的,就是强制切换,一般来说,我们通过命令行切换HA,需要去运行hdfs haadmin -transitionToActive/转载 2015-10-05 18:23:55 · 6627 阅读 · 0 评论 -
hadoop的原生比较器RawComparator<T> public WritableCom...
hadoop为序列化提供了优化,类型的比较对M/R而言至关重要,Key和Key的比较也是在排序阶段完成的,hadoop提供了原生的比较器接口RawComparator用于序列化字节间的比较,该接口允许其实现直接比较数据流中的记录,无需反序列化为对象,RawComparator是一个原生的优化接口类,它只是简单的提供了用于数据流中简单的数据对比方法,从而提供优化:1转载 2015-10-05 18:24:52 · 950 阅读 · 0 评论 -
hadoop面试题
1.下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案 C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份 c)1 份 d)不确定答案 A 默认 3 份3.下列哪个程序通常与 Na转载 2015-10-05 18:26:01 · 361 阅读 · 0 评论 -
http状态码
状态码含义100客户端应当继续发送请求。这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。服务器必须在请求完成后向客户端发送一个最终响应。101服务器已经理解了客户端的请求,并将通过Upgrade 消息头通知客户端采用不同的协议来完成这个请求。在发送完转载 2015-10-05 18:34:34 · 266 阅读 · 0 评论 -
kafka分布式消息系统
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性转载 2015-10-05 18:36:54 · 283 阅读 · 0 评论 -
linux开机启动
linux设置开机服务自动启动 [root@localhost ~]# chkconfig --list 显示开机可以自动启动的服务 [root@localhost ~]# chkconfig --add *** 添加开机自动启动***服务 [root@localhost ~]# chkconfig --del *** 删除开机自动启动***服务转载 2015-10-05 18:38:27 · 367 阅读 · 0 评论 -
linux命令
进入 home/itcast 目录cd /home/itcastls 显示目录内容:ls mkdir 创建一个目录 家庭A:mkdir familyA cd 切换目录 进入familyA 目录:cd familyA touch 新建空文件 touch father.txt 家庭A中有一个父亲to转载 2015-10-05 18:38:59 · 464 阅读 · 0 评论 -
linux之cut用法
cut是一个选取命令,就是将一段数据经过分析,取出我们想要的。一般来说,选取信息通常是针对“行”来进行分析的,并不是整篇信息分析的。(1)其语法格式为:cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]使用说明cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 Fi转载 2015-10-05 18:42:07 · 359 阅读 · 0 评论 -
mahout 返回主页 WEB系统架构与底层研发
mahout learning 代码示例一, Introductionpackage mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache.mahout.cf.taste.转载 2015-10-05 18:42:44 · 711 阅读 · 0 评论 -
mahout探索推荐引擎内部的秘密
最近要用到协同过滤的算法来解决工作中的问题,先学习,以后再把自己的收获总结下来。转自:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结转载 2015-10-05 18:43:23 · 489 阅读 · 0 评论 -
mapreduce的debug
步骤:书的171页1、选一台tasktracker,修改mapred-site.xml文件添加如下配置: mapred.child.java.opts -agentlib:jdwp=transport=dt_socket,address=8883,server=y,suspend=y 2、关闭所有的tasktracker,只转载 2015-10-05 18:43:53 · 469 阅读 · 0 评论 -
new DMS
Client.jar从zookeeper中获取可用的nameNode。从nameNode上获取可用的dataNode列表。获取dataNode列表后,设置监听,任何一个dataNode节点发生变化,重新获取dataNode列表,初始化hash环(大map)。用DataNode列表初始化hash环的大treeMap,并作虚拟节点。存储数据时,把key做hash,去treeMap中取ip,通过转载 2015-10-05 18:44:19 · 448 阅读 · 0 评论 -
nutch + hbase 安装部署
nutch安装安装软件准备安装环境:centos 6.5nutch:v2.2.1hbase:v0.94.18本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;安装步骤:安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量写道[hadoop@master nutch]$ vim转载 2015-10-05 18:44:47 · 304 阅读 · 0 评论 -
redis3.0
redis-cluster也就是redis的3.0版本,该版本集成redis集群功能。首先到该地址下载一个压缩包,百度云盘:http://pan.baidu.com/s/1ntr6e4T1、 将压缩包放置到Linux机器的/opt目录下2、 使用cd命令进入到/opt/redis/need/目录,安装目录里的软件。ruby-2.1.3步骤如下: 1)、cd ruby-2转载 2015-10-05 18:45:33 · 358 阅读 · 0 评论 -
window7使用eclipse提交Hadoop作业到Hadoop集群运行方法
Hadoop集群:Hadoop2.6.0,系统:windows7,开发环境:eclipseEclipse调用Hadoop运行MapReduce程序其实就是普通的java程序可以提交MR任务到集群执行而已。1、首先需要配置环境变量:在系统变量中新增:然后再Path中增加:%HADOOP_HOME%\bin;2、需要在开发的MapReduce的m转载 2015-10-05 18:50:37 · 2899 阅读 · 0 评论 -
zookeeper的领导者选举和原子广播
目录: 1、工作原理概述 2、Fast Leader选举算法(领导者选举) 3、Leader与Follower同步数据(原子广播)1、工作原理概述link:http://www.codedump.info/?p=207zookeeper3.3.3源码分析(一)工作原理概述阅读时参考的版本是3.3.3.简单的说转载 2015-10-05 18:52:58 · 292 阅读 · 0 评论 -
常用监控命令总结
监控web应用脚本#!/bin/bash result=`curl -s http://192.168.1.220:8080/inote/selfcheck/check.html` if [[ $result = *ok* ]]; then echo 'success' else echo 'error' fi监控CPU的load值(队列中的线程数):不大于转载 2015-10-05 18:54:28 · 426 阅读 · 0 评论 -
对称与非对称加密
1、非对称加密:(用颜色形状区分不同的公钥私钥)1、 把私钥比喻成钥匙,钥匙的底部是一个凹下去的刚戳。2、 把公钥比喻成锁头,与对用私钥相对应。3、 明文用私钥签名,比喻成用私钥底部的戳盖了个凹下去的刚戳(类似于咱们玩游戏中,密码山洞中凹下去的那种锁),签名后,你手头可能有不同的公钥,找到能放进去的对应公钥,不仅可以打开密文文件,还可以知道是哪个私钥加的密。4、转载 2015-10-05 18:56:16 · 570 阅读 · 0 评论 -
源代码制作成RPM包
由于自动化运维的需求,需要把所有的源代码打成RPM包,方便以后运维安装管理,一般来说源代码制作成RPM一般需要一下的步骤即可。1,确定Linux 环境中安装了gcc rpmbuild make install等2,从源代码中找到spec文件,用来控制包建立的过程3,打包4,查看制作完成的RPM包以下是一个实例:[html] view plaincopy1转载 2015-10-05 19:00:07 · 3292 阅读 · 0 评论 -
远程调试hadoop各组件
远程调试对应用程序开发十分有用。例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序。其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等。为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本。JP转载 2015-10-05 19:00:32 · 400 阅读 · 0 评论 -
Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客。 今天接着上次【Hadoop mapreduce自定义排序WritableComparable】文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需要了解的可以看看我在博客园的评论,现在开始。 首先我们查看下Job这个类,发现有setGroupingComparatorClass()这个方法,具体源码如下:01.转载 2015-10-05 17:57:26 · 517 阅读 · 0 评论 -
Hadoop2.6.0遇到的问题
一、如果配置了HDFS的federation,使用eclipse插件配置完M/R Master的端口(50020)和DFS Master的端口(9000)后,无法连接到HDFS看远程目录结构解决办法:切换到Advanced parameters标签,修改fs.defaultFS为hdfs://192.168.0.14:9000/tmp二、使用Maven开发hadoop2转载 2015-10-05 17:58:47 · 421 阅读 · 0 评论 -
Keepalived原理与实战精讲
什么是Keepalived呢,keepalived观其名可知,保持存活,在网络里面就是保持在线了,也就是所谓的高可用或热备,用来防止单点故障(单点故障是指一旦某一点出现故障就会导致整个系统架构的不可用)的发生,那说到keepalived时不得不说的一个协议就是VRRP协议,可以说这个协议就是keepalived实现的基础,那么首先我们来看看VRRP协议注:搞运维的要有足够的耐心哦,不理解协转载 2015-10-05 18:07:14 · 447 阅读 · 0 评论 -
Linux添加/删除用户和用户组
本文总结了Linux添加或者删除用户和用户组时常用的一些命令和参数。1、建用户:adduser phpq //新建phpq用户passwd phpq //给phpq用户设置密码2、建工作组groupadd test转载 2015-10-05 18:08:15 · 281 阅读 · 0 评论 -
Nginx 配置高并发
一、一般来说nginx 配置文件中对优化比较有作用的为以下几项:1. worker_processes 8;nginx 进程数,建议按照cpu 数目来指定,一般为它的倍数 (如,2个四核的cpu计为8)。2. worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 0100000转载 2015-10-05 18:15:41 · 446 阅读 · 0 评论 -
Storm入门教程:安装部署步骤详解(1)
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。一、Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus转载 2015-10-05 18:18:01 · 424 阅读 · 0 评论 -
Storm入门教程:消息的可靠处理
一、简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。二、理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式的“单词统计”的例子:storm任务从数据源转载 2015-10-05 18:19:34 · 868 阅读 · 0 评论 -
Tomcat最大连接数问题修改
Tomcat的server.xml中Context元素的以下参数应该怎么配合适 maxThreads="150" minSpareThreads="25" maxSpareThreads="75" acceptCount="100" /> 答曰:maxThreads="150" 表示最多同时处理150个连接 minSpareThrea转载 2015-10-05 18:20:42 · 2080 阅读 · 0 评论 -
hadoop的容错机制
针对文件内容:文件拆成小块后,每个小块在不同的datanode上存上N份。任意一个datanode挂了,还有N-1份数据是正确的。N越大资源占用越多,可靠性越大。 针对文件记录:可以在磁盘上不同目录、不同分区存上N份。通过硬件本身提供的容错能力保证总有一份正确数据被保留下来。同时hadoop自己也会做块的内容验证的: 针对文件内容:hadoop会记录每块内容的“内容摘要转载 2015-10-05 18:24:21 · 4048 阅读 · 0 评论 -
hadoop端口
hadoop端口:-A INPUT -p tcp -m tcp --dport 9000 -j ACCEPT-A INPUT -p tcp -m tcp --dport 9001 -j ACCEPT-A INPUT -p tcp -m tcp --dport 50090 -j ACCEPT-A INPUT -p tcp -m tcp --dport 50060 -j ACCEPT转载 2015-10-05 18:25:20 · 489 阅读 · 0 评论 -
hadoop中Text类
Text中有length和bytes,length是获取字符转换为字节的长度,但是bytes的长度可能要大于length的长度Text t=new Text("hadoop"); t.set("pig"); System.out.println(t.getLength()+":"+t.getBytes().length);结果 3:3Text转载 2015-10-05 18:28:23 · 3702 阅读 · 0 评论 -
hbase0.9.22全新api
package com.jttx.hadoop.demo.hbase;import java.io.BufferedOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.util.Iterator;import j转载 2015-10-05 18:30:19 · 375 阅读 · 0 评论 -
linux 下tomcat开机自启动
1、把下面的代码保存为tomcat文件vi /etc/init.d/tomcat#!/bin/bash# /etc/rc.d/init.d/tomcat# init script for tomcat precesses## processname: tomcat# description: tomcat is a j2se server转载 2015-10-05 18:37:58 · 506 阅读 · 0 评论 -
linux虚拟机配置双网卡
1、需要配置桥接和hostonly双网卡。建议第一块网卡为桥接,第二块为hostonly。2、虚拟机如果只有一块网卡,关闭虚拟机后在设置里再次添加一块,启动虚拟机即可。3、如果配置的第一块网卡是hostonly,hostonly则不要设置默认网关,否则两块网卡不能同时正常上网。hostonly配置 (第二块情况)桥接都是默认即可。4、桥接网卡转载 2015-10-05 18:39:55 · 2006 阅读 · 0 评论 -
setuid,setgid,sticky
setGid命令用法:与setUid类似,使得使用者在执行该文件时,都绑定了文件所有组的权限,单独setGid的文件非常少用,通常都是即setUid又setGid.chmod 2755 your_programsetUid and setGid命令用法:通常不是用来提升权限的,而是为了绑定某个特殊用户及其组的特殊权限.chmod 6755 your_prog转载 2015-10-05 18:46:48 · 351 阅读 · 0 评论 -
wordcount学习
昨天在自己的电脑上配置了hadoop,也运行了第一个MapReduce程序WordCount程序。但是对mapreduce的编程还很不清楚,在网上转了一段对wordcount的解释,转载学习下。Wordcount的输入是文件夹,文件夹内是多个文件,内容是以空格作分隔符的单词序列,输出为单词,以及他们的数量。首先,在mapreduce程序中,程序会按照setInputFormat中设转载 2015-10-05 18:51:17 · 473 阅读 · 0 评论 -
zookeeper的watcher示意图
zookeeper的watcher示意图转载 2015-10-05 18:52:12 · 402 阅读 · 0 评论