- 博客(34)
- 收藏
- 关注
原创 【测试度量】水到渠成 还是 造渠灌水
无论是版本进度,缺陷情况,测试覆盖度,自动化覆盖度 还是 测试分析,测试评估,如果能统计汇总成直观图表,那确实是测试能力的直观展现,给领导也是大大的好看。 所有的度量数据,来自规范化的运作;没有需求评审,随便写的设计,不同的人不同的用例风格,不同自动化实现方法,等等不规范的现象,导致数据的随机性,不确定性。这样花大力气设计出来的各种统计图表,只有其骨头,没有肉啊。...
2019-01-30 11:24:35
249
原创 【测试理论】软件缺陷的本质
我才疏学浅,很少引经据典。当然,就我感觉而言,软件行业,尤其是软件测试,谈的上经典的,屈指可数。 我从网上查阅到,计算机硬件的错误率是:对 1Mbit 进行10亿小时操作,突发异常 778 – 25,000 次(参考Google员工论文,这方面资料很少,如果理解有误请看原文)。如果硬件极少发生缺陷,那么软件怎么会出错呢。 实际上,我们通常说的软件缺陷是指软件没有按照我们...
2019-01-21 19:45:16
587
原创 There was an error collecting ganglia data (127.0.0.1:8652): fsockopen error: Connection refused
ganglia web 安装后,浏览器报错There was an error collecting ganglia data (127.0.0.1:8652): fsockopen error: Connection refused这个的原因是httpd 用户没有权限操作 rrd 目录,直接给rrd目录增加777的权限,会让 gmetad 进程退出解决方法是:将 ganglia用户(rr
2016-11-21 17:31:21
3933
原创 Nagios系统监控指标扩展
参考文档:http://blog.chinaunix.net/uid-23886490-id-3150556.htmlhttp://blog.chinaunix.net/uid-496101-id-2163927.htmlhttp://www.codelast.com/?p=2213技术文档:http://wenku.baidu.com/view/c367c9f5f90
2016-10-10 11:39:46
765
转载 Nagios系统搭建
参考并转载: Nagios系统搭建: http://assets.nagios.com/downloads/nagioscore/docs/Installing_Nagios_Core_From_Source.pdf http://10.136.149.96/nagios/Download Nagios Core and Nagios Plugins TarballsFor
2016-10-10 11:37:16
590
原创 测试监控系统框架构想
测试监控系统框架构想测试监控系统框架构想:1. 主要工具:ganglia 和 nagios2. 结合各自工具的特点,ganglia实现指标收集,nagios实现告警Ganglia:实现完备的、面向测试任务的指标体系(完备、灵活、已扩展)1. 现有系统指标及扩展指标的视图需要优化,太过分散,不够面向测试任务。2. hadoop及相关
2016-10-10 11:35:26
471
原创 ganglia安装与启动
10.136.149.100 root root/data/jinchaogao/ ganglia 和 httpd启动方法:whereis gmond运行 /usr/local/sbin/gmondwhereis gmetad运行 /usr/local/sbin/gmetadweb服务启动:cd /usr/local/apache2/bin./htt
2016-10-10 11:32:17
3646
原创 The following SSH command responded with a non-zero exit status.(vagrant)
CentOS 6.5 , VBox 4.3 , Vagrant 1.6.5 , Panamax 启动报错:The following SSH command responded with a non-zero exit statusVagrant assumes that this means the command failed!是因为vagrant s's
2014-10-15 09:55:45
4269
原创 valid states are 'starting running'. the machine is in the 'poweroff' state 的解决
CentOS 6.5 , 装 VBox4.3 , vagrant 1.6.5 , Panamax ,启动时报错:
2014-10-15 09:39:12
1819
原创 CentOS 6.5 下安装 VirtulBox(2014.10.1)
较低内核版本http://blog.sina.com.cn/s/blog_6e0c0fdf010199f4.html
2014-10-01 17:56:27
661
原创 HDFS2.0 NameNode HA 切换失败后的恢复(元数据写坏)(2014.10.1编辑)
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。尝试了多种方法终于恢复,原因还在分析中。
2014-09-10 10:17:01
7777
原创 CentOS6.5 x86_64 用 yum 安装 git
1. 下载geekery repo文件(root权限)cd /etc/yum.repos.d/wget http://geekery.altervista.org/geekery-el6-x86_64.repo 2. 到http://packages.sw.be/rpmforge-release 下载合适到rpm包 rpmforge-release-0.5.3-1.el6.
2014-03-28 00:50:36
1942
原创 面向系统测试的一种ganglia指标扩展的方法
ganglia工具主要是面向运维的,机器层面的监控,通过ganglia的扩展,实现一种面向进程的监控框架
2014-03-19 20:13:46
1507
原创 ganglia gmetad : is a 2.5 or later data stream 问题原因及解决方法
ganglia: is a 2.5 or later data stream 问题原因及解决方法
2014-03-19 19:28:29
2734
原创 2014开篇:为什么我不爱读书不爱学习
你是一个爱读书,爱学习,对自己的成长负责人的人吗?正是因为学校中我们被问这样的问题次数太多了,所以我们才不会自己问自己这样的问题。如果我们可以更早的对自己进行这样的提问,也许今天的我们大不同。---------- 一直以来,我不是一个爱读书爱学习的人
2014-01-11 17:34:13
1344
原创 Hadoop HDFS bug备忘:DN的删除队列与block report的协调引起的数据丢失
现象描述:线上任务出现失败,日志中显示查找计算用的block失败。现象分析:NN记录了block的所在的DN,但是DN上却没有了这个block;通常,删除过程是先删除NN\DN上的数据,然后再删除磁盘上的数据。肯定是某种条件,使得NN恢复了block信息,而DN上的确删除了block。经过分析发现,是两个线程的协调,引入这个问题。问题原因:NN下发删除block命令到DN,DN先删除自
2013-12-16 17:38:26
2081
转载 Yum下ganglia的安装与配置
yum的安装配置参见我转的博客:http://blog.youkuaiyun.com/yu_fu/article/details/17096041软件仓库 epel 直接使用epel源中的ganglia(自己编译安装有点小麻烦)。1. 安装epel源1 wget http://download.fedora.redhat.com/pub/epel/6/x86_64/epel-rele
2013-12-04 11:44:11
930
转载 转:yum配置与使用
原文出处:http://www.cnblogs.com/xiaochaohuashengmi/archive/2011/10/09/2203916.htmlyum的配置一般有两种方式,一种是直接配置/etc目录下的yum.conf文件,另外一种是在/etc/yum.repos.d目录下增加.repo文件。一、yum的配置文件 $ cat /etc/yum.c
2013-12-03 15:09:31
941
转载 转:域名解析服务器bind安装及配置
转载来源1:http://kuangkuang.blog.51cto.com/838/241210转载来源2:http://man.lupaworld.com/content/manage/DNS-bind.html一.、Bind 简介。Bind是一款开放源码的DNS服务器软件,Bind由美国加州大学Berkeley分校开发和维护的,全名为Berkeley Internet N
2013-11-26 20:21:26
1898
原创 呼唤专业精神
本人穷屌丝,对物质的追求一直一个理念:将就就行为了弥补曾经的无知,求知欲望突然的强烈,想买一个kindle,后来发现不如fire,后来发现还是ipad mini 吧(二代已出,一代将就吧)曾经用过杂牌androidPad ,三星pad ,用了Ipad 之后才知道差别,才理解 Apple 是一种理念,不是一堆产品。产品可以满足你的需求,信仰可以左右你的思想,进而引导你的需求。
2013-11-26 12:20:45
1071
原创 ganglia之gmetad响应慢及数据延迟的控制和缓解(hadoop相关监控)
hadoop 相关监控,通常在几百个监控指标,在ganglia上进行监控的话,建议Master和Slave分开收集,最好使用两套ganglia来监控。对于一个ganglia的gmetad,每个节点的监控指标不要超过200个。ganglia处理1000-2000个指标已经可以了。再多,就会出现响应延时,CPU占用太高。最近用ganglia监控hadoop的调度系统(corona ,后
2013-11-26 09:37:09
1532
原创 hadoop datanode 启动失败,没有任何报错的解决
datanode的log日志仅有如下信息,没有报错,但是进程没有起来:2013-11-25 09:57:01,466 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/************************************************************STARTUP_MSG:
2013-11-25 16:53:12
2622
原创 修改文件句柄:ulimit 系统设置脚本(避免设置不彻底而无效)
(一下脚本非本人所写,从同事那里得来,代他开源了^_^,请勿用作其他商业用途。仅供技术人员临时查阅之用)#!/bin/bashTEXT="ulimit -HSn"FILE="/etc/rc.d/ssh2"# the default ulimit num is 10240if [ "Z$1" = "Z" ] ; thenULIMITNUM=10240els
2013-11-25 16:40:25
2211
原创 ssh 建立信任关系免密码登录(同构及异构系统)
1. 如果是相同的操作系统,则使用相同的版本的ssh (一代或二代); 使用 ssh-keygen -t rsa 生成的文件,生成 authorization、identification 文件,进行所有机器同步到响应目录下即可(~/.ssh or ~/.ssh2) cat authorization key id_rsa_2048_a.pub -------(
2013-11-25 16:29:27
1250
原创 好用的集群管理工具dsh(分布式shell)
对于集群的管理,经常是ssh登录到很多台机器上,然后执行相同的命令,再退出来,分布式shell dsh 可以减少以上麻烦,而且比自己手工写的脚本好用一些。 dsh 也比 python写的分布式shell 好用,--- 个人感觉。安装包:libdshconfig-0.20.13.tar.gzdsh-0.25.3.tar.gz先对libdshconfig包
2013-09-24 10:09:06
3026
原创 Java多线程执行,主程序等待其他线程执行完成
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.HTable;import org.apache.hadoop.hbase.client.Put;import org.
2013-09-10 17:22:18
1491
转载 转:分布式日志分析系统:Dapper
转载出处:http://bigbully.github.io/Dapper-translation/ 同时看到了 淘宝的日志分析系统:鹰眼 ,优快云上收PPT概述当代的互联网的服务,通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台服务器,横跨多个不同的数据中心。因此,
2013-08-12 11:38:45
4161
原创 android新手学习笔记(1)安装及基本程序框架
参考google的指引:http://developer.android.com/training/index.html环境安装配置(略,以上指引中很明白) 应用的整体框架:(主要是MVC模式)1. activity交换过程中的参数传递,通过intent 2.可以通过在一个包中的类的全局变量来定义参数3.intent中保存着各种Key - Value参数
2013-08-07 23:49:54
735
原创 Facebook : Corona中的推测执行
大任务通常有成百上千个task,在任务即将执行完成时,总有几个task会拖后腿,corona的实现中,也考虑了备份执行,对执行慢的任务,启动一个他的clone,谁先执行完,kill掉另外一个。 首先计算门限,后续判断是否达到门限 SPECULATIVE_SLOWTASK_THRESHOLD = "mapreduce.job.speculative.slowtaskthres
2013-07-30 18:12:50
1375
原创 Facebook : Corona的Reduce延时启动
在MR的计算模型中,过早启动Reduce,reduce会空等map的完成,这是资源浪费,这个资源完全可以用来执行真正需要执行的任务。Corona的实现中,同样考虑了Reduce的延时启动。主要是下面三个单数来进行判断:# 当前job的最小map门限,如果一个job的未执行完毕的map数达到这个门限,则开始reduce的启动public static final String RUSH_
2013-07-01 10:25:46
1177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人