- 博客(81)
- 资源 (1)
- 收藏
- 关注
转载 贝叶斯分类
转自 http://blog.youkuaiyun.com/v_july_v/article/details/7577684 感谢july等第二部分、贝叶斯分类 说实话,友人刘未鹏有一篇讲的贝叶斯的文章:数学之美番外篇:平凡而又神奇的贝叶斯方法,已经把贝叶斯讲的很清晰透彻了,我再讲也是如李白看到崔颢在黄鹤楼上所提的:登黄鹤楼昔人已乘黄鹤去,此地空余黄鹤楼;黄鹤一去不复返,白云千载
2013-08-01 10:45:37
988
翻译 《摩天大楼失火记》
在最近的一次谷歌访谈中,James Bach描述了一个后现代专家的典型形象——他就是《摩天大楼失火记》中的Steve McQueen:《摩天大楼失火记》(The Towering Inferno)这部电影讲述了旧金山一座刚竣工的摩天大楼,因建筑商偷工减料,没有按照设计施工,存在严重的安全隐患,致使大楼在剪彩之日就因电路超负荷而引发大火。生与死的紧要关头,考验着大楼里的每一个人……这是一部电影史
2013-07-23 18:21:51
954
转载 HBase数据容灾技术方案
HBase是一个分布式的、非关系型开源数据库。 HBase有如下几个特点:首先HBase是No-SQL的一个典型实现,提升了系统的可扩展性;其次HBase支持线性水平扩展,极大提升了系统的可伸缩性和运算能力;最后HBase和Google的BigTable有异曲同工之妙,底层也是建立在HDFS(Hadoop分布式文件系统)之上,可以搭建在廉价的PC机集群上。No-SQL、云计算、海量数据分析的普及,
2013-07-23 17:42:45
736
原创 hbase集群新增节点后节点numberOfOnlineRegions=0的解决方法
hbase集群不够用了,新增加了一台。但是新增的机器的numberOfOnlineRegions值始终是0,就是不做balance。郁闷了。查看master的日志,有时会有如下错误信息:org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed setting up proxy interface org.apa
2013-07-23 14:08:17
1831
转载 程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大系列集锦
程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2012年11月。出处:http://blog.youkuaiyun.com/v_JULY_v 。声明:版权所有,侵犯必究。 前言 开博已过24个月,回首这24个月,发现自己在本blog上着实花费了巨大的时间与精力,写
2013-07-18 10:09:05
539
转载 lvs、haproxy、nginx 负载均衡的比较分析
对软件实现负载均衡的几个软件,小D详细看了一下,从性能和稳定上还是LVS最牛,基本达到了F5硬件设备的60%性能,其他几个10%都有点困难。 不过就因为LVS忒牛了,配置也最麻烦了,而且健康检测需要另外配置Ldirector,其他HAPROXY和NGINX自己就用,而且配置超级简单。 所以小D建议,如果网站访问量不是门户级别的用HAPROXY或者NGI
2013-07-12 11:17:00
507
转载 [开发]Resin 4.0.15配置优化的一个建议
转自http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/25/resin01.html 早先说过线上Resin的配置文件中要增加线程池大小、各种timeout参数(resin 4.0.15的默认配置文件肯定没有这些参数,需要另行增加)。在resin 4.0.10里,有这么一个bug,thread-max的数量设置没有起作用:ht
2013-07-10 15:28:03
593
转载 resin4.0.23+nginx1.1集群
转 http://www.blogjava.net/zhaoguo543166/articles/372731.html一,web服务器小论 以前的公司使用的web服务器是tomcat(tomcat+apache作集群),现在的公司是一家互联网公司,采用的架构是resin+nginx作集群(resin比tomcat快?还有待以后章节比较讨论), 集群配置服务器说明: 1
2013-07-10 10:53:42
561
原创 rinetd
Linux下简单好用的工具rinetd,实现端口映射/转发/重定向官网地址http://www.boutell.com/rinetd软件下载wget http://www.boutell.com/rinetd/http/rinetd.tar.gz解压安装tar zxvf rinetd.tar.gzmakemake install编辑配置vi /etc/rinet
2013-07-09 15:40:21
647
1
原创 resin服务器安装
root用户:# wget http://www.caucho.com/download/resin-4.0.15.tar.gz#tar zvxf resin-4.0.15.tar.gz#cd resin-4.0.15#./configure --prefix=/usr/local/resin4.0.15 --with-java-home=/usr/java/jdk1.6.0
2013-07-09 15:37:34
510
转载 程序员技术练级攻略
月光博客6月12日发表了《写给新手程序员的一封信》,翻译自《An open letter to those who want to start programming》,我的朋友(他在本站的id是Mailper)告诉我,他希望在酷壳上看到一篇更具操作性的文章。因为他也是喜欢编程和技术的家伙,于是,我让他把他的一些学习Python和Web编程的一些点滴总结一下。于是他给我发来了一些他的心得和经历,我
2013-06-28 14:17:54
500
原创 flume-ng扩展hdfsSink
代码:/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * r
2013-06-14 17:17:27
778
原创 flume-ng负载均衡load-balance、failover集群搭建
集群采用3台机器:host1 load-balance设置host2 机器1host3 机器2其中,host1 机器配置:#Define a memory channel called c1 on a1a1.channels = c1a1.sources = r1a1.sinks = k1 k2a1.sinkgroups = g1a1.sinkgroup
2013-06-14 11:35:32
1970
原创 flume-ng总结/注意事项
1. 在客户端,使用flume-ng 的avro client传输过程中会丢数据,如$bin/flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.102. /bin目录下flume-ng启动脚本中的OPTS要设置的大一些,否则会报内存溢出的错误。默认是20m,如下:JAVA_OPTS="-Xmx20m"
2013-06-13 16:51:36
1576
原创 hadoop集群容灾方案
一般情况下,hadoop集群备份机制采用默认的3份保存,如下图: hadoop集群filecopysizespacesample1.dat3100M3*100Msample2.dat3200M3*200Msample3.dat3150M3*150Msample4.
2013-05-22 15:55:52
4390
原创 zookeeper清除历史hbase、storm等版本
之前在集群上安装了hbase的一个版本,后来因该版本不稳定,切换为另一版本,这时候就需要清理zookeeper的记录了,具体方法如下:1.切换到zookeeper的bin目录;2.执行$sh zkCli.sh[hadoop@host hadoop]$ cd zookeeper-3.4.5/bin[hadoop@host bin]$ ./zkCli.sh Connecting to
2013-05-14 10:43:17
4115
原创 hbase加载HFile文件格式
hbase的加载hfile文件工具CompleteBulkLoad:$ bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 但是,CompleteBulkLoad并不能支持多个目录的情况:所以只能自己写个shell脚本将多个目录中存在的hfile文件加载到hhbase中:#!/bin/bashf
2013-05-13 18:27:52
639
转载 Oozie简介
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍 Oozie以及使用它的一些方式。什么是Oozie?Oozie是一种Java Web应用程序,它运行在Ja
2013-05-07 13:56:53
496
原创 hbase应用查询工具HBaseManager
hbase应用查询工具HBaseManager,支持界面查询,但是不支持sql语句查询,下载地址:http://sourceforge.net/projects/hbasemanagergui/
2013-04-19 10:43:59
1713
1
原创 实时统计解决方案
package com.gamewave.dataservices.dataanalysis.weblog;import com.gamewave.dataservices.util.HTableUtil;import java.io.IOException;import java.sql.Connection;import java.sql.DriverManager;i
2013-04-16 16:30:21
1316
2
转载 批量管理服务器工具:pssh
pssh是一个可以在多台服务器上执行命令的工具,同时支持拷贝文件,是同类工具中很出色的。使用是必须在各个服务器上配置好密钥认证访问。pssh 包安装 5 个实用程序:pssh 在多个主机上并行地运行命令。pscp 把文件并行地复制到多个主机上。prsync 通过 rsync 协议把文件高效地并行复制到多个主机上。pslurp 把文件并行地从多个远程主机复制到中心主机上。pn
2013-04-07 16:10:38
693
原创 shell 操作mysql
#!/bin/bash HOSTNAME="localhost" #数据库信息 PORT="3306" USERNAME="root" PASSWORD="root" DBNAME="test" #数据库名称 DATE=$(dat
2013-04-03 10:24:38
561
原创 hbase 根据timeRange范围
hbase中scan.setTimeRange(startRange, stopRange)的范围是大于等于startRange,小于stopRange的,一定要注意。比如scan.setTimeRange(13641412542L, 1365000000L)中, 时间戳为1365000000L的值不会被扫中,而时间戳为13641412542L的值会被扫中。
2013-04-02 16:19:10
5335
转载 多线程之间的通信(转)
问题线程之间的关系是平等的,彼此之间并不存在任何依赖,它们各自竞争CPU资源,互不相让,并且还无条件地阻止其他线程对共享资源的异步访问。然而,也有很多现实问题要求不仅要同步的访问同一共享资源,而且线程间还彼此牵制,通过相互通信来向前推进。那么,多个线程之间是如何进行通信的呢?解决思路在现实应用中,很多时候都需要让多个线程按照一定的次序来访问共享资源,例如,经典的生产者和消费
2013-03-30 10:38:57
422
转载 数据挖掘技术在网络游戏客户关系管理中的应用
数据挖掘技术在网络游戏客户关系管理中的应用现今,数据挖掘技术已经在各个领域得以应用,并有了相当的发展。许多学者对数据挖掘的研究及其在客户关系管理中的应用上获得了相当的突破,很多行业因此获益匪浅。在我国,网络游戏作为一个新兴不久的行业,拥有着巨大的市场和庞大的潜力,但随之而来的是愈发激烈的市场竞争,一些主流的游戏运营商已经把目光投向了在传统行业中取得了巨大成功的客户关系管理体
2013-03-27 10:33:54
954
1
原创 实用的linux数据分析命令
经常要针对处理后的数据进行核对,所以总结了一下常用的方法,包括1.使用awk命令摘取其中几列 $ cat file.txt | awk -F "," '{print $1,$3,$5}' >> test.log2.使用sed去除包含string的行 $ sed -i -e '/string/d' test.log3.使用uniq针对行进行去重 $ un
2013-03-26 16:21:20
652
转载 SimpleDateFormat性能调优
万能的SimpleDateFormat可以把java.util.Date对象, 或者类似 "2010-11-24 23:23:11.666"的 字符串转换成我们需要的格式或者时间对象。 但是由于时间的概念复杂,又牵扯到时区与本地化,导致了SimpleDateFormat需要处理太多的时间细节,new一个SimpleDateFormat需要华为太多的时间,这样可能会想到缓存Sim
2013-03-22 16:08:25
1333
1
转载 在服务器上排除问题的头五分钟
伯乐在线注:3月20日我们在微博推荐了《First 5 Minutes Troubleshooting A Server 》这篇文章,感谢@老码农的自留地 的热心翻译(链接) + 投稿。我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本
2013-03-21 14:06:58
405
转载 个性化推荐的十大挑战
摘要:个性化推荐很多读者都听说过,但真正它是什么,可能大多数人都说不上来或者并不真正了解,而对于其发展现状和前景,大家也没有一个统一的认识。本文很详尽地介绍了个性化推荐的;理论概念,并深入分析了其面临的10大挑战。个性化推荐经常被人误解为细分市场和精准营销这两个概念。虽然它们之间有一些联系,但实质上却相差甚远。本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战。很多人都知道
2013-03-19 12:11:15
493
原创 浅谈大数据下的BI
一般BI的数据库都是单机的,即便是集群也是oracle、mysql等关系型数据库。ETL工具的处理流程也都是将几个库的数据合并整理到数据仓库里,然后按部分性质分成数据集市,最后再展示。 传统的BI流程可以解决大多数的公司业务,基本处理流程如下: 在大数据的今天,传统的处理流程已经不能满足动不动就多少T的数据,那么分布式计算将填补这一空白: 我
2013-03-06 17:55:58
841
转载 Hive任务优化--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文
2013-02-28 17:49:14
354
转载 利用udf函数将hive统计结果直接插入到mysql
大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar;Adde
2013-02-28 17:26:06
503
原创 coprocessor
coprocessor before: 客户端执行一个hbase查询命令,集群将所有符合的数据返回给客户端,然后客户端遍历ResultScanner,进行计算等操作;coprocessor after: 客户端执行一个hbase查询命令,集群将该scan转换为多个scan并发在服务端执行,将计算等操作后的结果传给客户端进行组装。
2013-02-21 15:36:38
533
转载 HBase之访问控制
构建和运维HBase集群是一个非常有挑战性的工作。HBase凭借其在海量数据的良好的扩展性和高效的读写能力,受到越来越多公司的重视。在公司里,HBase越来越受欢迎。希望通过HBase读写数据的产品越来越多,在兴奋之余,头疼的问题也来了。毕竟,作为线上的产品,我们不希望过多人随意的访问,会照成很多潜在的风险,比如误删,误操作。但是,如果所有事情都有管理员处理,沟通的代价就会很高,而且管理员不得
2013-02-21 14:33:39
677
转载 HBase Coprocessor的分析
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是他对HBase Coprocessor的一些分析,分享给大家。原文地址:http://walkoven.com/?p=77文章PDF下载:hbase coprocessor的分析.pdfhbase Coprocessor是很多人
2013-02-21 14:02:13
482
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人