小桥-优快云博客

转载 Kafka剖析（一）：Kafka背景及架构介绍

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展，“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建

2015-03-19 21:49:23 1209

转载 Linux流量监控工具 - iftop (最全面的iftop教程)

在类Unix系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量，监控TCP/IP连接等，则可以使用iftop。一、iftop是什么？iftop是类似于top的实时流量监控工具。官方网站：http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用？

2015-03-06 14:00:59 920

转载 Linux网络流量实时监控ifstat iftop命令详解

ifstat介绍ifstat工具是个网络接口监测工具,比较简单看网络流量实例默认使用#ifstat eth0 eth1 KB/s in KB/s out KB/s in KB/s out 0.07 0.20 0.00 0.00 0.07

2015-02-09 18:05:06 1194

转载 linux下iftop安装使用

在类linux系统中可以使用top查看系统资源、进程、内存占用等信息。查看网络状态可以使用netstat、nmap等工具。若要查看实时的网络流量，监控TCP/IP连接等，则可以使用iftop.一、iftop是什么？iftop是类似于top的实时流量监控工具。官方网站：http://www.ex-parrot.com/~pdw/iftop/二、iftop有什么用？iftop可以用

2015-02-09 17:15:09 2043

转载 zookeeper代码解析

zookeeper代码解析ZooKeeper是近期比较热门的一个类Paxos实现。也是一个逐渐得到广泛应用的开源的分布式锁服务实现。被认为是Chubby的开源版，虽然具体实现有很多差异。ZooKeeper概要的介绍可以看官方文档：http://hadoop.apache.org/zookeeper 这里我们重点来看下它的内部实现。ZooKeeper集群中的每个server都

2014-11-26 21:20:06 825

原创 kafka 2.10-8.1.1安装

1. 解压安装包2. 配置server.properties (现在线上配置)目录在 config 下，修改配置信息修改 broker.id 为不同的值0 ，1 ，2 ...host.name 设置IP 供连接使用zookeeper.connect 设置 zk 地址例如：zkhost1:port1,zkhost2:port2,zkhost3:port3/kafk

2014-11-20 17:00:08 1902

转载 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonSe

2014-11-12 20:38:54 739

转载 HBase性能优化方法总结（四）：数据计算

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容：数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端，各个Regions保持对与其相关的coprocessor实现类的

2014-11-12 18:00:27 788

转载 HBase性能优化方法总结（三）：读表操作

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容：读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作，提高读数据的吞吐量，一个例子：static final Configurat

2014-11-12 17:59:39 927

转载 HBase性能优化方法总结（二）：写表操作

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容：写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作，提高写数据的吞吐量，一个例子：static final Configurat

2014-11-12 17:58:46 729

转载 HBase性能优化方法总结（一）：表的设计

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，可参考：淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容：表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户

2014-11-12 17:56:30 673

原创 kafka 集群运维和使用

最近在维护kafka集群，遇到了很多问题都需要记录下，1. kafka 的topic 级别的配置修改

2014-11-08 14:43:19 17820 3

转载使用zssh远程传送文件

zssh的全名叫ZMODEM SSH.看名字就知道，使用的zmodem，我们习惯了SecureCRT,直接就可以用来发送文件，比使用scp方便很多。zmodem协议方便主要表示在以下点其一,不需要输入很长的命令和密码，直接使用rz,sz加文件名，就能实现文件的收发。速度还很快。其二,在中转了一台主机时，要在目标主机和本地主机之类，要传送文件，scp相当的麻烦，需要输入多次命

2014-10-27 13:02:01 1225

转载 linux 机器之间 zssh, rz, sz互相传输 ( How to install zssh in Ubuntu 13.10 (Saucy))

zssh 用法是：像用ssh命令一样用zssh登录主机；在命令输入状态中按下ctrl+2(@键)进入zssh状态； $sz 本地文件名 [可选参数-be:二进制方式] 上传文件完成（我在用时输出了一些乱码，但没影响上传）下载是反出来的，先sz文件再ctrl+2再输入rz 更新：在archlinux上安装zssh须在AUR中找包，安装时依赖没有解决好，还需要安装lrzsz，否则

2014-10-27 13:00:50 1333

转载 HBase条件查询（多条件查询）

Author：Pirate LeomyBlog: http://blog.youkuaiyun.com/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处，谢谢。文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase: http:

2014-10-24 16:02:04 769

转载 Storm实战常见问题及解决方案

该文档为实实在在的原创文档，转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题，及其对应解决办法。相关描述² 其他相关文档请参考新浪博客http://blo

2014-10-18 15:19:40 1208

转载 kafka 监控之Mx4jLoader

接上一篇kafka监控的博文讲起，在kafka 源码kafka/utils中有Mx4jLoader.scala源码，源码注释功能如下：?123456789/** * If mx4j-tools is in the classpath call maybeLoad to load the HTTP interface

2014-10-15 09:50:01 2195

转载 Solr开发文档:Solr详细介绍

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境：System：WindowsWebBrowser：IE6+、Firefox3+JDK：1.6+JavaEE Server：tomcat5

2014-08-25 22:45:56 925

转载 Hadoop web编程--REST API

1 介绍 Hadoop提供了一个Java native API来支持对文件系统进行创建，重命名，删除文件或者目录，打开读取或者写文件，设置文件权限等操作。这对于运行在hadoop集群中的应用程序来说是挺棒的，但是，也有许多外部的应用程序需要操作HDFS的情况，怎么办？如果解决这种问题呢？Hortonworks 开发了一些额外的API来支持这些基于标准REST功能的需求。

2014-08-25 22:29:52 1146

转载国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程

前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用率低、支持作业类型少等问题，结构发生了很大变化，是hadoop未来使用的一个趋势。当然，配置也更加复杂

2014-08-21 14:27:39 1017

转载 hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件

hadoop中提供了 MultiOutputFormat 能将结果数据输出到不同的目录，也提供了 FileInputFormat 来一次读取多个目录的数据，但是默认一个job只能使用 job.setInputFormatClass 设置使用一个inputfomat处理一种格式的数据。如果需要实现在一个job中同时读取来自不同目录的不同格式文件的功能，就需要自己实现一个 MultiInput

2014-08-14 23:49:30 2123

转载如何使用Hadoop的ChainMapper和ChainReducer

Hadoop的MR作业支持链式处理，类似在一个生产牛奶的流水线上，每一个阶段都有特定的任务要处理，比如提供牛奶盒，装入牛奶，封盒，打印出厂日期，等等，通过这样进一步的分工，从而提高了生产效率，那么在我们的Hadoop的MapReduce中也是如此，支持链式的处理方式，这些Mapper像Linux管道一样，前一个Mapper的输出结果直接重定向到下一个Mapper的输入，形成一个流水线，而这一点与L

2014-08-14 23:47:25 676

转载 hadoop 一个Job多个MAP与REDUCE的执行

在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理，再进行reduce，经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理，这样的Job是不会保存中间结果的，并大大减少了I/O操作。例如：在一个Job中，按顺序执行 MAP1->MAP2->REDUCE->MAP3->MAP4 在这种链式结构中，要将MAP2与REDUCE看成这个MAPRE

2014-08-14 23:46:27 2692

转载腾讯深度学习平台（译）

1 介绍1.1 背景腾讯提供了一些列Internet服务，比如拥有3.9亿左右月激活用户的微信(WeChat)、以及8.4亿左右QQ用户和6.4亿左右的QZone用户。这些数据是来自于2014年第一季度。腾讯拥有超过100PB数据，这些数据由不同的应用以及不同的用户产生的，用户生成的数据比如有照片、语音和视频。近些年深度学习在大数据挖掘已经成为一个热点，也在不同领域取得了突破性

2014-08-14 09:23:30 2156

转载 Ceph：一个 Linux PB 级分布式文件系统

作为一名存储行业的架构师，我对文件系统情有独钟。这些系统用来存储系统的用户界面，虽然它们倾向于提供一系列类似的功能，但它们还能够提供差异显著的功能。Ceph 也不例外，它还提供一些您能在文件系统中找到的最有趣的功能。Ceph 最初是一项关于存储系统的 PhD 研究项目，由 Sage Weil 在 University of California, Santa Cruz（UCSC）实施。但是

2014-08-07 08:47:46 1240

转载 MapReduce on Avro Data Files

MapReduce on Avro Data Files时间2014-03-10 13:11:41 Architects Zone原文 http://java.dzone.com/articles/mapreduce-avro-data-files Related MicroZone ResourcesBuild Big Data Apps with

2014-08-04 11:38:37 1186

转载一个完整的Avro数据序列化例子

1.环境准备: 在Avro官网下载Avro的jar文件，以最新版本1.7.4为例，分别下载avro-1.7.4.jar和avro-tool-1.7.4.jar;并下载JSON的jar文件core-asl和mapper-asl。将以上四个文件放入${HADOOP_HOME}/lib目录下(当前为/usr/local/hadoop/lib，为了以后hadoop项目方便)。2

2014-07-22 17:15:52 7042

转载 kafak学习之分享ppt

组内分享Kafak的ppt，希望大家多提建议：

2014-07-16 22:53:49 2029

转载 Java高速、多线程虚拟内存

本文作者Alex已经从事Java开发15年了，最近帮助开发了COBOL和Magik语言的JVM 。当前，他正致力于Micro Focus的Java性能测试工具。在本文中，他阐述了在标准硬件中实现高速、多线程虚拟内存的可能性及方案。原文内容如下。你想在标准硬件上运行TB级甚至PB级内存的JVM吗？你想与内存交互一样读写文件，且无需关心文件的打开、关闭、读、写吗？ JVM的64位地址

2014-07-16 22:48:00 719

转载 Hive Server 2 调研，安装和部署

背景我们使用Hive Server 1已经很长时间了，用户ad-hoc query，hive-web, wormhole，运营工具等都是通过hive server来提交语句。但是hive server极其不稳定，经常会莫名奇妙假死，导致client端所有的connection都被block住了。对此我们不得不配置一个crontab检查脚本，会不断执行"show tables

2014-07-14 17:33:17 1055

转载使用daemontools监控Zookeeper服务

daemontools(http://cr.yp.to/daemontools.html)是一个管理UNIX下服务的工具集。supervise监视一个服务。它启动一个服务、当服务停掉时它会重起服务。Zookeeper在运行过程中，如果出现一些无法处理的异常，会直接退出进程，也就是所谓的快速失败（fail fast）模式。daemontools 能够帮助你监控ZK进程，一旦进程退出后，能够自

2014-05-16 13:43:01 1236 1

转载 hadoop集群配置机架感知

自己搭建的hadoop集群一般默认不具备机架感知能力，为了提高hadoop集群的网络性能，我们常常需要配置机架感知。下面是以下步骤：一、修改配置文件core-site.xml，添加配置属性： topology.script.file.name/home/r203/hadoop-0.20.2/rackaware.py　　二、编写自己的脚本rackaware.py：

2014-05-15 13:26:41 1160

转载 HDFS 的Trash回收站功能的配置、使用

文件的删除和恢复和Linux系统的回收站设计一样，HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过Shell删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话，HDFS就会自动的把这个文件/目录彻底删除，之后，用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就

2014-05-15 13:26:06 1406

转载 hadoop使用lzo压缩文件笔记 (CDH3u1)

LZO性能编译LZO下载： http://www.oberhumer.com/opensource/lzo/download/ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装：tar -zxf lzo-2.06.

2014-05-06 14:37:51 1449

转载 MapReduce的自制Writable分组输出及组内排序

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://computerdragon.blog.51cto.com/6235984/1287721问题描述：输入文件格式如下：name1 2name3 4name1 6name1 1name3 3

2014-05-06 14:26:22 857

转载如何使用Hadoop的MultipleOutputs进行多文件输出

有时候，我们使用Hadoop处理数据时，在Reduce阶段，我们可能想对每一个输出的key进行单独输出一个目录或文件，这样方便数据分析，比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用MultipleOutputs类，来搞定这件事，下面，先来看下散仙的测试数据： Java代码中国;我们美国;他们中国;123 中

2014-05-06 14:01:57 1669

转载 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何

2014-04-28 21:30:03 7182

转载 HDFS中文件的压缩与解压

文件的压缩有两大好处：1、可以减少存储文件所需要的磁盘空间；2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时，这两大好处是相当重要的。　　下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩，压缩后为/user/hadoop/text.gz

2014-04-21 17:10:37 6311

转载 Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用

自定义实现RCFileOutputFormat.java 1.import java.io.IOException; 2. 3.import org.apache.Hadoop.conf.Configuration; 4.import org.apache.hadoop.fs.FileSystem; 5.import org.apache.hadoop.fs.P

2014-04-21 10:43:02 1167

kettle 中的集群详解

kettle集群技术详解，可以解决kettle中的集群技术问题！！

2011-08-01

Oracle调优心得

外部的性能问题： CPU 内存网络行的重新排序 SQL 语句的调优调整 Oracle 的竞争调整 Oracle 的排序操作表格和索引存储参数设置的要求总结

2012-08-07

WIN7安装Oracle 步骤以及问题解决

记录了 WIN7安装oracle 的步骤解决win7安装不上oracle的问题大家可以参考

2012-10-11

Hadoop配置手册

Linux下配置hadoop 环境配置，以及运行操作的全部过程

2012-09-11

JMS_ActiveMQ交流学习

JMS学习指导讲解PPT，ActiveMQ学习PPT 以及对JMS实现的研究

2012-02-21

JAVA_JVM 深入理解虚拟机

深入理解java虚拟机 PDF，帮助开发人员来具体解释下虚拟机原理，以便更好的做开发

2012-07-09

NIO学习与总结

NIO的学习记录以及自己的总结，对关于NIO有个简单深刻的认识，可以应用在各个开发应用之中提升性能

2012-07-25

jQuery_EasyUI 中文教程

jQuery_EasyUI 中文教程轻松学习jQuery_EasyUI 详细的例子和讲解

2012-10-10

MFS文件系统使用手册.pdf

MFS文件系统使用手册，新手学习还是很不错的，大家可以学习一下

2014-01-09

腾讯深度学习平台（译）

腾讯深度开发平台翻译文档，介绍深度学习平台架构等，有很好的学习价值，值得大家学习一下

2014-08-14

Java实现几种常见的排序算法

Java实现几种常见的排序算法，包括插入排序，二分法排序，堆排序，选择排序，冒泡排序等等，常用的都设计到了。

2012-02-21

基于事件的 NIO 多线程服务器（源码）

基于事件的 NIO 多线程服务器（源码）可以根据博客中的描述对照学习

2013-07-22

小区物业管理系统的实现

针对各个小区的智能化管理，做出的小区物业管理系统，实现了住户信息管理，投诉管理，车辆管理，缴费管理，管理员管理，陌生人管理等功能。

2010-08-07

VMware-ESXI-5.0.0 key

2013-01-10

开发中的sql积累

在开发过程中对处理sql，以及sql各种函数还有各种关键字的积累

2012-08-07

IBM WebSphere MQ入门教程

IBM WebSphere MQ 学习分享

2011-08-01

Oracle知识库

1.Oracle知识 2.DBA 3.Exp vs Imp 4.SQL技巧 5.Oracle错误 6.Oracle初学者入门 7.Oracle安装与删除 8.Oracle安全性问题 9.Oracle系统设置，优化，链接 10.索引，序列，快照，数据库链路，触发器 11.Oracle及其其他数据库比较 12.linux vs unix 13.Develop 2000

2012-10-24

Hadoop权威指南中文版第二版完全版

全方位的介绍Hadoop这一高性能处理海量数据集的理想工具

2012-05-12

easyui 帮助文档

jQuery-easyui api 中文文档简单方便 chm的

2012-10-10

虚拟化与云计算PDF

虚拟化与云计算电子工业出版社电子扫描版帮助大家认识虚拟化与云计算是入门级书籍推荐大家翻阅一下

2012-10-10

Java 优化编程

Java程序设计风格内存管理 Java核心类与性能优化 JNI程序设计及性能优化类与接口 JSP与Servlet性能优化开发高性能的EJB应用 JMS性能优化 JDBC性能优化软件结构，设计模式及性能优化

2012-08-07

学习ext中文帮助文档

关于ext的帮助文档，对于ext初学者极有帮助可以查询你所需要的东西

2010-08-08

Hadoop入门手册

高手整理的Hadoop学习资料对于新手学习相当适合

2012-10-15

kettle 应用简单java例子1

关于kettle的开源开发基于java的例子，实现表之间的同步。

2011-08-01

实现普通局域网聊天的软件

实现了局域网下的聊天功能，跟QQ界面功能相似

2010-08-07

企业人事管理系统的设计

实现了企业人事的管理各个方面的功能，对人事的管理更加方便和高效

2010-08-07

《Hadoop开发者》1-3期刊

《Hadoop开发者》帮你认识和学习hadoop 里面讲解还是比较详细的，对于初识者还是比较有帮助推荐大家好好看看

2012-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

kettle 中的集群详解

Oracle调优心得

WIN7安装Oracle 步骤以及问题解决

Hadoop配置手册

JMS_ActiveMQ交流学习

JAVA_JVM 深入理解虚拟机

NIO学习与总结

jQuery_EasyUI 中文教程

MFS文件系统使用手册.pdf

腾讯深度学习平台（译）

Java实现几种常见的排序算法

基于事件的 NIO 多线程服务器（源码）

小区物业管理系统的实现

VMware-ESXI-5.0.0 key

开发中的sql积累

IBM WebSphere MQ入门教程

Oracle知识库

Hadoop权威指南 中文版 第二版完全版

easyui 帮助文档

虚拟化与云计算PDF

Java 优化编程

学习ext中文帮助文档

Hadoop入门手册

kettle 应用简单java例子1

实现普通局域网聊天的软件

企业人事管理系统的设计

《Hadoop开发者 》1-3期刊

空空如也

Hadoop权威指南中文版第二版完全版

《Hadoop开发者》1-3期刊