chinalgf-优快云博客

转载贝叶斯分类

转自 http://blog.youkuaiyun.com/v_july_v/article/details/7577684 感谢july等第二部分、贝叶斯分类说实话，友人刘未鹏有一篇讲的贝叶斯的文章：数学之美番外篇：平凡而又神奇的贝叶斯方法，已经把贝叶斯讲的很清晰透彻了，我再讲也是如李白看到崔颢在黄鹤楼上所提的：登黄鹤楼昔人已乘黄鹤去，此地空余黄鹤楼；黄鹤一去不复返，白云千载

2013-08-01 10:45:37 988

翻译《摩天大楼失火记》

在最近的一次谷歌访谈中，James Bach描述了一个后现代专家的典型形象——他就是《摩天大楼失火记》中的Steve McQueen：《摩天大楼失火记》（The Towering Inferno）这部电影讲述了旧金山一座刚竣工的摩天大楼，因建筑商偷工减料，没有按照设计施工，存在严重的安全隐患，致使大楼在剪彩之日就因电路超负荷而引发大火。生与死的紧要关头，考验着大楼里的每一个人……这是一部电影史

2013-07-23 18:21:51 954

HBase是一个分布式的、非关系型开源数据库。 HBase有如下几个特点：首先HBase是No-SQL的一个典型实现，提升了系统的可扩展性；其次HBase支持线性水平扩展，极大提升了系统的可伸缩性和运算能力；最后HBase和Google的BigTable有异曲同工之妙，底层也是建立在HDFS(Hadoop分布式文件系统)之上，可以搭建在廉价的PC机集群上。No-SQL、云计算、海量数据分析的普及，

2013-07-23 17:42:45 736

原创 hbase集群新增节点后节点numberOfOnlineRegions=0的解决方法

hbase集群不够用了，新增加了一台。但是新增的机器的numberOfOnlineRegions值始终是0，就是不做balance。郁闷了。查看master的日志，有时会有如下错误信息：org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed setting up proxy interface org.apa

2013-07-23 14:08:17 1831

转载程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大系列集锦

2013-07-18 10:09:05 539

转载 lvs、haproxy、nginx 负载均衡的比较分析

对软件实现负载均衡的几个软件，小D详细看了一下，从性能和稳定上还是LVS最牛，基本达到了F5硬件设备的60%性能，其他几个10%都有点困难。不过就因为LVS忒牛了，配置也最麻烦了，而且健康检测需要另外配置Ldirector，其他HAPROXY和NGINX自己就用，而且配置超级简单。所以小D建议，如果网站访问量不是门户级别的用HAPROXY或者NGI

2013-07-12 11:17:00 507

转载 [开发]Resin 4.0.15配置优化的一个建议

转自http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/25/resin01.html 早先说过线上Resin的配置文件中要增加线程池大小、各种timeout参数（resin 4.0.15的默认配置文件肯定没有这些参数，需要另行增加）。在resin 4.0.10里，有这么一个bug，thread-max的数量设置没有起作用：ht

2013-07-10 15:28:03 593

转载 resin4.0.23+nginx1.1集群

转 http://www.blogjava.net/zhaoguo543166/articles/372731.html一，web服务器小论　　以前的公司使用的web服务器是tomcat（tomcat+apache作集群）,现在的公司是一家互联网公司，采用的架构是resin+nginx作集群(resin比tomcat快？还有待以后章节比较讨论)，集群配置服务器说明：　　　 1

2013-07-10 10:53:42 561

原创 rinetd

Linux下简单好用的工具rinetd，实现端口映射/转发/重定向官网地址http://www.boutell.com/rinetd软件下载wget http://www.boutell.com/rinetd/http/rinetd.tar.gz解压安装tar zxvf rinetd.tar.gzmakemake install编辑配置vi /etc/rinet

2013-07-09 15:40:21 647 1

原创 resin服务器安装

root用户：# wget http://www.caucho.com/download/resin-4.0.15.tar.gz#tar zvxf resin-4.0.15.tar.gz#cd resin-4.0.15#./configure --prefix=/usr/local/resin4.0.15 --with-java-home=/usr/java/jdk1.6.0

2013-07-09 15:37:34 510

转载程序员技术练级攻略

月光博客6月12日发表了《写给新手程序员的一封信》，翻译自《An open letter to those who want to start programming》，我的朋友（他在本站的id是Mailper）告诉我，他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙，于是，我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来了一些他的心得和经历，我

2013-06-28 14:17:54 500

原创 flume-ng扩展hdfsSink

代码：/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * r

2013-06-14 17:17:27 778

原创 flume-ng负载均衡load-balance、failover集群搭建

集群采用3台机器：host1 load-balance设置host2 机器1host3 机器2其中，host1 机器配置：#Define a memory channel called c1 on a1a1.channels = c1a1.sources = r1a1.sinks = k1 k2a1.sinkgroups = g1a1.sinkgroup

2013-06-14 11:35:32 1970

原创 test

2013-06-13 22:02:43 481

原创 flume-ng总结/注意事项

1. 在客户端，使用flume-ng 的avro client传输过程中会丢数据，如$bin/flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.102. /bin目录下flume-ng启动脚本中的OPTS要设置的大一些，否则会报内存溢出的错误。默认是20m，如下：JAVA_OPTS="-Xmx20m"

2013-06-13 16:51:36 1576

原创 hadoop集群容灾方案

一般情况下，hadoop集群备份机制采用默认的3份保存，如下图： hadoop集群filecopysizespacesample1.dat3100M3*100Msample2.dat3200M3*200Msample3.dat3150M3*150Msample4.

2013-05-22 15:55:52 4390

原创 zookeeper清除历史hbase、storm等版本

之前在集群上安装了hbase的一个版本，后来因该版本不稳定，切换为另一版本，这时候就需要清理zookeeper的记录了，具体方法如下：1.切换到zookeeper的bin目录；2.执行$sh zkCli.sh[hadoop@host hadoop]$ cd zookeeper-3.4.5/bin[hadoop@host bin]$ ./zkCli.sh Connecting to

2013-05-14 10:43:17 4115

原创 hbase加载HFile文件格式

hbase的加载hfile文件工具CompleteBulkLoad：$ bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 但是，CompleteBulkLoad并不能支持多个目录的情况：所以只能自己写个shell脚本将多个目录中存在的hfile文件加载到hhbase中：#!/bin/bashf

2013-05-13 18:27:52 639

转载 Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。本文中，我们会向你介绍 Oozie以及使用它的一些方式。什么是Oozie？Oozie是一种Java Web应用程序，它运行在Ja

2013-05-07 13:56:53 496

转载 hadoop错误集锦

http://bbs.hadoopor.com/thread-71-1-1.html

2013-04-23 17:01:53 501

原创 hbase应用查询工具HBaseManager

hbase应用查询工具HBaseManager，支持界面查询，但是不支持sql语句查询，下载地址：http://sourceforge.net/projects/hbasemanagergui/

2013-04-19 10:43:59 1713 1

原创实时统计解决方案

package com.gamewave.dataservices.dataanalysis.weblog;import com.gamewave.dataservices.util.HTableUtil;import java.io.IOException;import java.sql.Connection;import java.sql.DriverManager;i

2013-04-16 16:30:21 1316 2

转载批量管理服务器工具:pssh

pssh是一个可以在多台服务器上执行命令的工具，同时支持拷贝文件，是同类工具中很出色的。使用是必须在各个服务器上配置好密钥认证访问。pssh 包安装 5 个实用程序：pssh 在多个主机上并行地运行命令。pscp 把文件并行地复制到多个主机上。prsync 通过 rsync 协议把文件高效地并行复制到多个主机上。pslurp 把文件并行地从多个远程主机复制到中心主机上。pn

2013-04-07 16:10:38 693

原创 shell 操作mysql

#!/bin/bash HOSTNAME="localhost" #数据库信息 PORT="3306" USERNAME="root" PASSWORD="root" DBNAME="test" #数据库名称 DATE=$(dat

2013-04-03 10:24:38 561

原创 hbase 根据timeRange范围

hbase中scan.setTimeRange(startRange, stopRange)的范围是大于等于startRange，小于stopRange的，一定要注意。比如scan.setTimeRange(13641412542L, 1365000000L)中, 时间戳为1365000000L的值不会被扫中，而时间戳为13641412542L的值会被扫中。

2013-04-02 16:19:10 5335

转载多线程之间的通信（转）

问题线程之间的关系是平等的，彼此之间并不存在任何依赖，它们各自竞争CPU资源，互不相让，并且还无条件地阻止其他线程对共享资源的异步访问。然而，也有很多现实问题要求不仅要同步的访问同一共享资源，而且线程间还彼此牵制，通过相互通信来向前推进。那么，多个线程之间是如何进行通信的呢？解决思路在现实应用中，很多时候都需要让多个线程按照一定的次序来访问共享资源，例如，经典的生产者和消费

2013-03-30 10:38:57 422

转载数据挖掘技术在网络游戏客户关系管理中的应用

数据挖掘技术在网络游戏客户关系管理中的应用现今，数据挖掘技术已经在各个领域得以应用，并有了相当的发展。许多学者对数据挖掘的研究及其在客户关系管理中的应用上获得了相当的突破，很多行业因此获益匪浅。在我国，网络游戏作为一个新兴不久的行业，拥有着巨大的市场和庞大的潜力，但随之而来的是愈发激烈的市场竞争，一些主流的游戏运营商已经把目光投向了在传统行业中取得了巨大成功的客户关系管理体

2013-03-27 10:33:54 954 1

原创实用的linux数据分析命令

经常要针对处理后的数据进行核对，所以总结了一下常用的方法，包括1.使用awk命令摘取其中几列 $ cat file.txt | awk -F "," '{print $1,$3,$5}' >> test.log2.使用sed去除包含string的行 $ sed -i -e '/string/d' test.log3.使用uniq针对行进行去重 $ un

2013-03-26 16:21:20 652

转载 SimpleDateFormat性能调优

万能的SimpleDateFormat可以把java.util.Date对象，或者类似 "2010-11-24 23:23:11.666"的字符串转换成我们需要的格式或者时间对象。但是由于时间的概念复杂，又牵扯到时区与本地化，导致了SimpleDateFormat需要处理太多的时间细节，new一个SimpleDateFormat需要华为太多的时间，这样可能会想到缓存Sim

2013-03-22 16:08:25 1333 1

转载在服务器上排除问题的头五分钟

伯乐在线注：3月20日我们在微博推荐了《First 5 Minutes Troubleshooting A Server 》这篇文章，感谢@老码农的自留地的热心翻译（链接） + 投稿。我们团队为上一家公司承担运维、优化和扩展工作的时候，我们碰到了各种不同规模的性能很差的系统和基础设备（大型系统居多，比如CNN或者世界银行的系统）。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档，基本

2013-03-21 14:06:58 405

转载代志远：HBase系统故障恢复的优化实践分享

点击打开链接

2013-03-20 16:52:06 759

转载个性化推荐的十大挑战

摘要：个性化推荐很多读者都听说过，但真正它是什么，可能大多数人都说不上来或者并不真正了解，而对于其发展现状和前景，大家也没有一个统一的认识。本文很详尽地介绍了个性化推荐的；理论概念，并深入分析了其面临的10大挑战。个性化推荐经常被人误解为细分市场和精准营销这两个概念。虽然它们之间有一些联系，但实质上却相差甚远。本文不仅清楚地讲述了个性化推荐技术，更列出了其所面临的十大挑战。很多人都知道

2013-03-19 12:11:15 493

原创浅谈大数据下的BI

一般BI的数据库都是单机的，即便是集群也是oracle、mysql等关系型数据库。ETL工具的处理流程也都是将几个库的数据合并整理到数据仓库里，然后按部分性质分成数据集市，最后再展示。传统的BI流程可以解决大多数的公司业务，基本处理流程如下：在大数据的今天，传统的处理流程已经不能满足动不动就多少T的数据，那么分布式计算将填补这一空白：我

2013-03-06 17:55:58 841

转载 Hive任务优化--控制hive任务中的map数和reduce数

一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文

2013-02-28 17:49:14 354

转载利用udf函数将hive统计结果直接插入到mysql

大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中，再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar;Adde

2013-02-28 17:26:06 503

原创概念

增值税：差价的17%；所得税：利润的25%；

2013-02-25 13:58:23 337

原创公司名

内蒙古郎峰科技有限公司内蒙古郎峰时代有限公司

2013-02-25 09:27:21 388

原创 coprocessor

coprocessor before：客户端执行一个hbase查询命令，集群将所有符合的数据返回给客户端，然后客户端遍历ResultScanner，进行计算等操作；coprocessor after：客户端执行一个hbase查询命令，集群将该scan转换为多个scan并发在服务端执行，将计算等操作后的结果传给客户端进行组装。

2013-02-21 15:36:38 533

转载 HBase之访问控制

构建和运维HBase集群是一个非常有挑战性的工作。HBase凭借其在海量数据的良好的扩展性和高效的读写能力，受到越来越多公司的重视。在公司里，HBase越来越受欢迎。希望通过HBase读写数据的产品越来越多，在兴奋之余，头疼的问题也来了。毕竟，作为线上的产品，我们不希望过多人随意的访问，会照成很多潜在的风险，比如误删，误操作。但是，如果所有事情都有管理员处理，沟通的代价就会很高，而且管理员不得

2013-02-21 14:33:39 677

转载 HBase Coprocessor的分析

本文来自于NoSQLFan联合作者@koven2049，他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解，本文就是他对HBase Coprocessor的一些分析，分享给大家。原文地址：http://walkoven.com/?p=77文章PDF下载：hbase coprocessor的分析.pdfhbase Coprocessor是很多人

2013-02-21 14:02:13 482

smartsvn for mac破解版

空空如也