- 博客(173)
- 收藏
- 关注
原创 mac svn版本
http://xiayong.blog.51cto.com/6292420/1186124截至目前SVN最新版本已经到l.7.9 Release,而Xcode以及Mac系统自带的SVN版本还是1.6。实在不喜欢SVN1.6版本在每个目录下都生成一个.svn文件夹,所以动手自己来升级SVN。 1、下载最新版的Mac版SVN客户端到http://www.wandisco.com下载...
2014-11-14 15:21:36
382
原创 lucene索引结构比较好得博客
http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html
2014-11-03 21:16:01
205
原创 lucene再64位系统上使用MMapDirectory
引子http://www.cnblogs.com/huangfox/p/3616298.htmllucene再使用directory上面又很多小九九,这些小九九主要是再directory得实现上,分为SimpleFsdirectory,NIOFSDirectory,MMapDirectory,RAMDirectory,FileSwitchDirectory。再3.3版本之前,使用得都是RAM...
2014-11-03 20:18:09
392
原创 mvn发布单个文件
由于平时我们开发都是一个大项目中包含几个子项目,需要deploy得只有部分项目。如下命令,用于记录安装到本地mvn install:install-file -Dfile=hse-client/target/hse-client-1.1.5-SNAPSHOT.jar -DgroupId=com.taobao.trip -DartifactId=hse-client -Dversion=1...
2014-10-31 15:38:44
205
原创 使用 ObjectOutputStream 可能引起的内存泄漏
场景,线上堆栈10G,平时内存使用达到8个G而且慢慢增长,经常出现full gc,经过堆栈信息排查出来是由于ObjectOutputStream造成得内存泄漏。项目中使用ObjectOutputStream进行写文件,使用writeObject()方法,然而,该对象写得object可能存在内存泄漏,是由于ObjectOutputStream写对象时,依然存在这对该对象得引用,这是j...
2014-10-30 17:14:29
742
原创 CMS GC时出现promotion failed和concurrent mode failure
对于采用CMS进行旧生代GC的程序而言,尤其要注意GC日志中是否有promotion failed和concurrent mode failure两种状况,当这两种状况出现时可能会触发Full GC。promotion failed是在进行Minor GC时,survivor space放不下、对象只能放入旧生代,而此时旧生代也放不下造成的;concurrent mode failure是在...
2014-10-29 23:44:40
176
原创 jboss发布war
http://www.blogjava.net/hello-yun/archive/2011/03/14/346240.html
2014-10-23 13:09:51
139
原创 volatile和重排序得一些小疑问
http://yeziwang.iteye.com/blog/1042492 好吧,这里我只想说说volatile在JMM中的语义。 当我们在使用volatile的时候,实际上它表达了下面那么些意思。 1. 可见性。 这个是大多数人都知道的一个特质, JAVA的线程有自己的工作内存区,与主存区不同,当我们对变量使用了volatile后,那么不管对这个...
2014-09-24 15:38:31
186
原创 内存映射文件
简介: 内存映射文件与虚拟内存有些类似,通过内存映射文件可以保留一个地址空间的区域,同时将物理存储器提交给此区域,只是内存文件映射的物理存储器来自一个已经存在于磁盘上的文件,而非系统的页文件,而且在对该文件进行操作之前必须首先对文件进行映射,就如同将整个文件从磁盘加载到内存。由此可以看出,使用内存映射文件处理存储于磁盘上的文件时,将不必再对文件执行I/O操作,这意味着在对...
2014-09-19 11:09:36
121
原创 rocketmq
原创文章,转载请注明出处:http://jameswxx.iteye.com/blog/2091966我想说,真tm蛋疼,2.0和3.0架构变化挺大的,nameserver有必要吗?zookeeper不是挺好的吗? 一 nameserver相对来说,nameserver的稳定性非常高。原因有二:1 nameserver互相独立,彼此没有通信关系,单台nameserve...
2014-09-04 15:47:40
116
原创 CAP
CAP原理 C(consistency)-一致性 A(Availability)-可用性 P(patition tolerance)-分区容忍性
2014-08-26 19:36:20
104
原创 zookeeper zab协议
http://www.cnblogs.com/aigongsi/archive/2012/09/22/2698055.htmlhttp://www.cnblogs.com/aigongsi/archive/2012/09/21/2696773.htmlhttp://blog.youkuaiyun.com/c289054531/article/details/15337575http://my....
2014-08-20 19:45:28
153
原创 心跳机制 heartbeat
心跳机制可以分为集中式和分散式,简单说集中式就是A通过心跳告诉B自己还活着,C通过B来获得或者的A,这里面的A,B,C可以是一个集群,可以认为B是个服务发现的功能。这种方式广泛应用于hadoop,NameServer来管理哪些DataNode时活的,客户端存储数据要从nameserver中获取存储的datanode的位置。这种方式有弊端就是B会存在单点故障,当然也有方式解决,譬如...
2014-08-05 23:13:57
777
1
原创 netty udp蛋疼的事情
2012-11-29蛋痛的 netty UDP receiveBufferSize netty 的NioDatagramWorker中分配了接收包缓存的最大大小,默认是 768Bytes,蛋痛的是第一次接收 768B后第二次缓存被扩展到 768B*2 buffer 中前768B是第一个包的前面部分数据,后768B是第二个包的前部分数据。比较奇怪的是:http://d...
2014-07-30 19:20:23
735
原创 一个性能瓶颈分析的过程
引自http://blog.youkuaiyun.com/axman/article/details/5591301前段时间公司打造了自己的WEB开发框架新版,性能比以前的两个版有很大提高。在性能基准测试时,某个测试的业务场景为18000个TPS左右。但是后来增加了session序列化模块后,一下子下降低到6000个TPS左右,就是因为这个模块性能一下子降低三倍。 jvisualvm监视...
2014-07-29 16:19:38
229
原创 zip gzip
http://www.differencebetween.net/technology/difference-between-zip-and-gzip/ZIP vs GZIPZIP and GZIP are two very popular methods of compressing files, in order to save space, or to reduce the am...
2014-07-29 15:09:25
148
原创 RAID write back write through
RAID write back指的是raid控制器能够将写入的数据写入自己的缓存中,并把它们安排到后续再执行,这样做的好处就是不需要等实际写入磁盘再返回,因此写入更快。对于数据库而言,这一点更为重要,对重做日志的写入,sync_binlog为1的情况下二进制日志写入,脏页的刷新等,都可以有很大的提升。但是这样有个弊端就是系统发生意外,数据还在缓存中没有写入磁盘。大多数硬件RAID提供了电池...
2014-07-09 13:44:48
460
原创 druid PreparedStatementCache设置
druid的连接池配置中有PreparedStatementCache的配置,该信息解决了sql语句可以被预编译,并且保存在PreparedStatement这个对象中,而这个对象的存储就在PreparedStatementCache,对于oracle可以绕过数据库编译,有很大的提升,但是对于mysql,没有那么明显。这个值的设置不是越大越好,PSCache会占用jvm,占用量=连接数*PS...
2014-07-08 14:34:58
2016
原创 mvn expected: CRLF
Checkstyle error is not severe. You can disable checkstyle plugin, put <skip>true</skip> in pom.xml file:<project> ... <build> ... <plugins> ......
2014-07-03 14:36:13
210
原创 innodb 插入缓冲
插入缓冲是InnoDB存储引擎关键特性中最令人激动的。不过,这个名字可能会让人认为插入缓冲是缓冲池中的一个部分。其实不然,InnoDB缓冲池中有Insert Buffer信息固然不错,但是Insert Buffer和数据页一样,也是物理页的一个组成部分。我们知道,主键是行唯一的标识符,在应用程序中行记录的插入顺序是按照主键递增的顺序进行插入的。因此,插入聚集索引一般是顺序的,不需要磁盘的随机读取。...
2014-07-01 16:07:49
126
原创 netty学习blog
http://blog.youkuaiyun.com/u013252773/article/details/21046697
2014-05-05 09:38:07
87
原创 netty 零拷贝
http://my.oschina.net/plucury/blog/192577 mmap()系统调用使得进程之间通过映射同一个普通文件实现共享内存 sendfile()是作用于数据拷贝在两个文件描述符之间的操作函数.这个拷贝操作是内核中操作的,所以称为"零拷贝".Linux "零拷贝" sendfile函数中文说明及实际操作分析http://blog.csdn.ne...
2014-04-25 09:24:23
213
原创 批量转码工具
find cozy.base -type d -exec mkdir -p cozy/{} \;find cozy.base -exec sh -c "iconv -f GB18030 -t UTF8 {} > utf/{}" \;
2014-04-18 11:52:09
267
原创 zookeeper好的文章
http://shift-alt-ctrl.iteye.com/blog/1846865http://www.youkuaiyun.com/article/2013-12-27/2817944-zookeeperhttp://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html
2014-04-04 17:44:30
173
原创 hbase例子
https://github.com/mozilla/socorrohttps://github.com/mozilla-metrics/socorro-toolboxhttps://github.com/Huawei-Hadoop/hindexhttps://github.com/sonalgoyal/crux/tree/aggregation/testData/BseStoc...
2014-01-17 11:44:03
106
原创 HBase性能调优
引自http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:Regio...
2014-01-16 21:17:47
85
原创 Hive调优实战
Hive优化总结 ---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如...
2014-01-16 21:09:48
117
原创 map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为7...
2014-01-16 21:03:10
122
原创 HIVE RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据...
2014-01-13 12:36:13
103
原创 Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到 了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大...
2014-01-13 12:15:36
85
原创 hive merge file
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。 为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并 当然,在我们向一个表写数据时,也需要注意输出文件大小 1. Map输入合并小文件 对应参数: set mapred.max.split...
2014-01-11 10:12:58
484
原创 Hive MapJoin 优化
1、Hive本地MR 如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感,查询的数据不能太大,否则本地内存是吃不消的。So the query processor will launch this task in a child jvm, which has the same heap size as the Ma...
2014-01-11 10:05:49
92
原创 深入学习《Programing Hive》:数据压缩
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。 在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或更多,同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以节...
2014-01-08 17:22:32
198
原创 Hive 中内部表与外部表的区别与创建方法
先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 需要注意的是传统数据库对表数据验证是 schema on write(写时模式)...
2014-01-08 17:21:09
168
原创 MongoDB优化的方法
引自http://www.2cto.com/database/201203/123993.html部署优化(Linux系统): 1.关闭MongoDB数据存储所在文件的atime(mount -o remount,noatime,nodiratime) 2.设置file descriptor limit和user process limit为4k+ 3.选择正确的...
2013-11-27 22:52:15
109
原创 mongodb的监控与性能优化
引自http://my.oschina.net/baowenke/blog/97756 mongodb可以通过profile来监控数据,进行优化。查看当前是否开启profile功能用命令db.getProfilingLevel() 返回level等级,值为0|1|2,分别代表意思:0代表关闭,1代表记录慢命令,2代表全部开始profile功能为db.setProfili...
2013-11-27 22:41:04
79
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人