- 博客(269)
- 资源 (31)
- 收藏
- 关注
转载 Kafka剖析(一):Kafka背景及架构介绍
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建
2015-03-19 21:49:23
1170
转载 Linux流量监控工具 - iftop (最全面的iftop教程)
在类Unix系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量,监控TCP/IP连接等,则可以使用iftop。一、iftop是什么?iftop是类似于top的实时流量监控工具。官方网站:http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用?
2015-03-06 14:00:59
859
转载 Linux网络流量实时监控ifstat iftop命令详解
ifstat介绍ifstat工具是个网络接口监测工具,比较简单看网络流量 实例默认使用#ifstat eth0 eth1 KB/s in KB/s out KB/s in KB/s out 0.07 0.20 0.00 0.00 0.07
2015-02-09 18:05:06
1145
转载 linux下iftop安装使用
在类linux系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量,监控TCP/IP连接等,则可以使用iftop.一、iftop是什么?iftop是类似于top的实时流量监控工具。官方网站:http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用?iftop可以用
2015-02-09 17:15:09
1992
转载 zookeeper代码解析
zookeeper代码解析ZooKeeper是近期比较热门的一个类Paxos实现。也是一个逐渐得到广泛应用的开源的分布式锁服务实现。被认为是Chubby的开源版,虽然具体实现有很多差异。ZooKeeper概要的介绍可以看官方文档:http://hadoop.apache.org/zookeeper 这里我们重点来看下它的内部实现。ZooKeeper集群中的每个server都
2014-11-26 21:20:06
794
原创 kafka 2.10-8.1.1安装
1. 解压安装包2. 配置server.properties (现在线上配置)目录在 config 下,修改配置信息 修改 broker.id 为不同的值0 ,1 ,2 ...host.name 设置IP 供连接使用zookeeper.connect 设置 zk 地址 例如:zkhost1:port1,zkhost2:port2,zkhost3:port3/kafk
2014-11-20 17:00:08
1866
转载 HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe
2014-11-12 20:38:54
716
转载 HBase性能优化方法总结(四):数据计算
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容:数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端,各个Regions保持对与其相关的coprocessor实现类的
2014-11-12 18:00:27
767
转载 HBase性能优化方法总结(三):读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:static final Configurat
2014-11-12 17:59:39
903
转载 HBase性能优化方法总结(二):写表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容:写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:static final Configurat
2014-11-12 17:58:46
707
转载 HBase性能优化方法总结(一):表的设计
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户
2014-11-12 17:56:30
648
转载 使用zssh远程传送文件
zssh的全名叫ZMODEM SSH.看名字就知道,使用的zmodem,我们习惯了SecureCRT,直接就可以用来发送文件,比使用scp方便很多。zmodem协议方便主要表示在以下点其一,不需要输入很长的命令和密码,直接使用rz,sz加文件名,就能实现文件的收发。速度还很快。其二,在中转了一台主机时,要在目标主机和本地主机之类,要传送文件,scp相当的麻烦,需要输入多次命
2014-10-27 13:02:01
1183
转载 linux 机器之间 zssh, rz, sz互相传输 ( How to install zssh in Ubuntu 13.10 (Saucy))
zssh 用法是: 像用ssh命令一样用zssh登录主机; 在命令输入状态中按下ctrl+2(@键)进入zssh状态; $sz 本地文件名 [可选参数-be:二进制方式] 上传文件完成(我在用时输出了一些乱码,但没影响上传) 下载是反出来的,先sz文件再ctrl+2再输入rz 更新:在archlinux上安装zssh须在AUR中找包,安装时依赖没有解决好,还需要安装lrzsz,否则
2014-10-27 13:00:50
1284
转载 HBase条件查询(多条件查询)
Author:Pirate LeomyBlog: http://blog.youkuaiyun.com/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http:
2014-10-24 16:02:04
750
转载 Storm实战常见问题及解决方案
该文档为实实在在的原创文档,转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题,及其对应解决办法。 相关描述² 其他相关文档请参考新浪博客http://blo
2014-10-18 15:19:40
1184
转载 kafka 监控之Mx4jLoader
接上一篇kafka监控的博文讲起,在kafka 源码kafka/utils中有Mx4jLoader.scala源码,源码注释功能如下:?123456789/** * If mx4j-tools is in the classpath call maybeLoad to load the HTTP interface
2014-10-15 09:50:01
2165
转载 Solr开发文档:Solr详细介绍
Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中,将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境:System:WindowsWebBrowser:IE6+、Firefox3+JDK:1.6+JavaEE Server:tomcat5
2014-08-25 22:45:56
896
转载 Hadoop web编程--REST API
1 介绍 Hadoop提供了一个Java native API来支持对文件系统进行创建,重命名,删除文件或者目录,打开读取或者写文件,设置文件权限等操作。这对于运行在hadoop集群中的应用程序来说是挺棒的,但是,也有许多外部的应用程序需要操作HDFS的情况,怎么办?如果解决这种问题呢?Hortonworks 开发了一些额外的API来支持这些基于标准REST功能的需求。
2014-08-25 22:29:52
1099
转载 国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程
前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。 hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoop未来使用的一个趋势。当然,配置也更加复杂
2014-08-21 14:27:39
992
转载 hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件
hadoop中提供了 MultiOutputFormat 能将结果数据输出到不同的目录,也提供了 FileInputFormat 来一次读取多个目录的数据,但是默认一个job只能使用 job.setInputFormatClass 设置使用一个inputfomat处理一种格式的数据。如果需要实现 在一个job中同时读取来自不同目录的不同格式文件 的功能,就需要自己实现一个 MultiInput
2014-08-14 23:49:30
2084
转载 如何使用Hadoop的ChainMapper和ChainReducer
Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper的输入,形成一个流水线,而这一点与L
2014-08-14 23:47:25
656
转载 hadoop 一个Job多个MAP与REDUCE的执行
在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进行reduce,经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理,这样的Job是不会保存中间结果的,并大大减少了I/O操作。例如:在一个Job中,按顺序执行 MAP1->MAP2->REDUCE->MAP3->MAP4 在这种链式结构中,要将MAP2与REDUCE看成这个MAPRE
2014-08-14 23:46:27
2664
转载 腾讯深度学习平台(译)
1 介绍1.1 背景腾讯提供了一些列Internet服务,比如拥有3.9亿左右月激活用户的微信(WeChat)、以及8.4亿左右QQ用户和6.4亿左右的QZone用户。这些数据是来自于2014年第一季度。腾讯拥有超过100PB数据,这些数据由不同的应用以及不同的用户产生的,用户生成的数据比如有照片、语音和视频。近些年深度学习在大数据挖掘已经成为一个热点,也在不同领域取得了突破性
2014-08-14 09:23:30
2106
转载 Ceph:一个 Linux PB 级分布式文件系统
作为一名存储行业的架构师,我对文件系统情有独钟。这些系统用来存储系统的用户界面,虽然它们倾向于提供一系列类似的功能,但它们还能够提供差异显著的功能。Ceph 也不例外,它还提供一些您能在文件系统中找到的最有趣的功能。Ceph 最初是一项关于存储系统的 PhD 研究项目,由 Sage Weil 在 University of California, Santa Cruz(UCSC)实施。但是
2014-08-07 08:47:46
1195
转载 MapReduce on Avro Data Files
MapReduce on Avro Data Files时间2014-03-10 13:11:41 Architects Zone原文 http://java.dzone.com/articles/mapreduce-avro-data-files Related MicroZone ResourcesBuild Big Data Apps with
2014-08-04 11:38:37
1149
转载 一个完整的Avro数据序列化例子
1.环境准备: 在Avro官网下载Avro的jar文件,以最新版本1.7.4为例,分别下载avro-1.7.4.jar和avro-tool-1.7.4.jar;并下载JSON的jar文件core-asl和mapper-asl。将以上四个文件放入${HADOOP_HOME}/lib目录下(当前为/usr/local/hadoop/lib,为了以后hadoop项目方便)。2
2014-07-22 17:15:52
7000
转载 Java高速、多线程虚拟内存
本文作者Alex已经从事Java开发15年了,最近帮助开发了COBOL和Magik语言的JVM 。当前,他正致力于Micro Focus的Java性能测试工具。在本文中,他阐述了在标准硬件中实现高速、多线程虚拟内存的可能性及方案。原文内容如下。 你想在标准硬件上运行TB级甚至PB级内存的JVM吗?你想与内存交互一样读写文件,且无需关心文件的打开、关闭、读、写吗? JVM的64位地址
2014-07-16 22:48:00
694
转载 Hive Server 2 调研,安装和部署
背景 我们使用Hive Server 1已经很长时间了,用户ad-hoc query,hive-web, wormhole,运营工具等都是通过hive server来提交语句。但是hive server极其不稳定,经常会莫名奇妙假死,导致client端所有的connection都被block住了。对此我们不得不配置一个crontab检查脚本,会不断执行"show tables
2014-07-14 17:33:17
1025
转载 使用daemontools监控Zookeeper服务
daemontools(http://cr.yp.to/daemontools.html)是一个管理UNIX下服务的工具集。supervise监视一个服务。它启动一个服务、当服务停掉时它会重起服务。Zookeeper在运行过程中,如果出现一些无法处理的异常,会直接退出进程,也就是所谓的快速失败(fail fast)模式。daemontools 能够帮助你监控ZK进程,一旦进程退出后,能够自
2014-05-16 13:43:01
1212
1
转载 hadoop集群配置机架感知
自己搭建的hadoop集群一般默认不具备机架感知能力,为了提高hadoop集群的网络性能,我们常常需要配置机架感知。下面是以下步骤:一、修改配置文件core-site.xml,添加配置属性: topology.script.file.name/home/r203/hadoop-0.20.2/rackaware.py 二、编写自己的脚本rackaware.py:
2014-05-15 13:26:41
1125
转载 HDFS 的Trash回收站功能的配置、使用
文件的删除和恢复 和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就
2014-05-15 13:26:06
1364
转载 hadoop使用lzo压缩文件笔记 (CDH3u1)
LZO性能 编译LZO下载: http://www.oberhumer.com/opensource/lzo/download/ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装:tar -zxf lzo-2.06.
2014-05-06 14:37:51
1414
转载 MapReduce的自制Writable分组输出及组内排序
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721问题描述:输入文件格式如下:name1 2name3 4name1 6name1 1name3 3
2014-05-06 14:26:22
837
转载 如何使用Hadoop的MultipleOutputs进行多文件输出
有时候,我们使用Hadoop处理数据时,在Reduce阶段,我们可能想对每一个输出的key进行单独输出一个目录或文件,这样方便数据分析,比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类,来搞定这件事, 下面,先来看下散仙的测试数据: Java代码 中国;我们 美国;他们 中国;123 中
2014-05-06 14:01:57
1629
转载 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何
2014-04-28 21:30:03
7112
转载 HDFS中文件的压缩与解压
文件的压缩有两大好处:1、可以减少存储文件所需要的磁盘空间;2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时,这两大好处是相当重要的。 下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩,压缩后为/user/hadoop/text.gz
2014-04-21 17:10:37
6224
转载 Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用
自定义实现RCFileOutputFormat.java 1.import java.io.IOException; 2. 3.import org.apache.Hadoop.conf.Configuration; 4.import org.apache.hadoop.fs.FileSystem; 5.import org.apache.hadoop.fs.P
2014-04-21 10:43:02
1138
Oracle知识库
2012-10-24
Java 优化编程
2012-08-07
Oracle调优心得
2012-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人