shj1119-优快云博客

原创 20161121发现娃会自己系扣子了

因为幼儿园要求穿带拉链的衣服，不要穿扣子的。昨天看娃穿扣子衣服了，就提醒她幼儿园不让穿的，因为你们不会扣。她说我会扣，后来果然都扣好了。不知不觉的孩子就长大了。总是感觉现在的娃没有我们小时候幸福，虽然我们小时候条件更差，可每天放学回家都能吃到妈妈做的饭。冬天早自习完回家吃饭，妈妈炖一锅白菜豆腐热乎乎的在家等着，现在想来还是觉得幸福。

2016-11-22 11:32:54 488

原创宝宝上幼儿园了

4.5第一天上幼儿园，先到私立的熟悉半年，私立的老师还算比较有责任心，放学后，把每个小孩一天的表现都总结了发给家长。每次课外活动，吃饭都会拍照片。娃表现的还算不错，在家不睡午觉的。老师给哄睡觉了。每天三顿饭加两次点心，也比在家里老人经常不给规律做饭菜要好。特意请了一天假去接她放学，排队的时候看到我了，高兴的蹦蹦跳跳的，问她明天还来不，说来。心里终于踏实点了。

2016-04-06 18:20:18 621

原创 storm使用redis池与长链接的区别

storm的bolt中使用redis有两种方式，1）在prepare中初始化jedis链接，在execute方法中，执行提交方法。 2）在prepare中初始化连接池，每次execute中从池中取jedis，然后再提交数据，然后归还连接。用池好处：万一发生了连接异常，catch捕获调fail，下一条数据执行execute照常进行，从池里取连接不会受影响。另外一个好处，就是如果一个e

2016-04-06 18:16:54 3398

原创升级mongo3.2.1后遇到的数据重复的问题---后续

在api官网上，找到了关于db.collection.update具体的说明，以下为摘录：Use Unique IndexesWARNINGTo avoid inserting the same document more than once, only use upsert: true if the query field is uniquely indexed.

2016-02-17 10:22:42 448

原创 mongo api,distinct查询后，循环查询

为了减轻手工查询，测试对比数据的工作量。写成代码还挺好用的，在这里记录下:import com.mongodb.*;import java.util.List;public class Test3 { public static void main(String[] args){ try { MongoURI uri = new

2016-02-16 17:50:14 1244

原创升级mongo3.2.1后遇到的数据重复的问题

因为5分钟的uv数据1分钟更新一次mongo，所以使用了mongo的update方法（db.collection.update(query,update,true,false)），设置第三个参数upsert为true，以实现数据不存在的时候直接写入，存在的时候更新的场景。最近，在由mongo3.0.7升级到mongo3.2.1之后，发现，同样查询条件的数据，存在重复的情况。比如id=x

2016-02-16 17:43:41 2055

原创 3岁了

从今年初，2岁半以后，我就有种松一口气的感觉，不用再每晚喂几次水，甚至半夜说饿了，着急找东西给她吃，或者搞不懂为什么的哭闹。每晚只需喝一两次水，尿一次或者零次，也甚少在哭闹。我的宝宝好像一下长大了，省心了。甚是欣慰。换工作的最大收获，就是在中间空闲的几天里，全心全意的带娃，纠正了每晚11点后睡觉的习惯。现在每晚回家吃饭完了，抓

2015-10-20 11:06:00 444 1

原创 kafka查看消费了多少条数据

storm jar接收程序，如果指定了forceFromStart=false,则从最新的数据开始读，最新是指多长时间的，有具体的参数设置如果指定了为true，则从最老的数据开始消费。如何查看目前的消费者是否已经读到最新的数据：kafka-run-class.sh kafka.tools.ConsumerOffsetChecker#kafka查看topic各个分区的

2015-10-20 10:58:29 62893

原创 mongodb集群搭建-replica set模式

1 前提：原来有个节点169，已经搭建了mongodb，现在想再增加两个节点167和168做repliset模式的mongo集群,其中167做为协调节点，168作为副节点，169作为主节点2 配置在原来169配置文件的基础上，增加一个配置：replSet=mongotest原配置：dbpath=/opt/mongodb-3.0.6/dblogpath=/opt/mo

2015-10-19 15:31:19 798

原创 windows storm安装及本地模式执行

1 下载storm安装文件，解压缩2 cmd中切换到bin目录下，执行 storm命令，提示 error JAVA_HOME is incorrectly set 经寻找原因是 java home路径中含有空格，因为java安装在了program files目录下，在storm bin目录下的storm-config.cmd中可以看到能找到java_home,但是执行到这里的时候出问题

2015-10-12 18:04:21 3257

原创 storm jar包执行报错问题解决

1 要将kafka和zookeeper的ip 机器名都要配在storm集群各节点的hosts中，只配zk的不行，storm kafka spout会通过zk去找kafka地址，zk中存的kafka地址是域名。java.lang.RuntimeException: java.nio.channels.ClosedChannelException at storm.kafka.Z

2015-10-12 15:08:15 3215

原创 mongodb安装及初步使用

1 mongodb的安装很简单 1）解压文件2）进入软件目录：在mongo home下创建log目录，里边创建一个mongodb.log文件创建db目录创建etc目录，里边创建mongodb.conf文件，写入配置属性： dbpath=/opt/mongodb-3.

2015-10-12 15:00:31 409

原创 hadoop启动dfs的warn问题解决

1 问题在启动dfs，start-dfs.sh和hdfs dfs -ls /等命令执行的时候，一直出现WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2 原因增加

2015-09-30 17:35:28 1740

原创 idea languagelevel问题

发现用idea导入新工程或者工程刷新后，language level总是变成jdk1.5。很多overwrite的错误，手工改成1.6报错信息就消失了。再次点击maven projects中的刷新按钮或者做compile操作，languagelevel又会变成jdk5.后来根据网上资料在pom.xml中增加如下内容就好了，如果已经存在build属性，则在现有的build属性的plugi

2015-09-30 16:00:20 3372

原创 kafka与storm集成测试问题小结

1 拷贝kafka依赖jar包到storm lib[root@hdmaster libs]# cp kafka_2.10-0.8.2.1.jar /opt/apache-storm-0.9.5/lib/[root@hdmaster libs]# cp scala-library-2.10.4.jar /opt/apache-storm-0.9.5/lib/[root@hdmaster

2015-09-30 11:12:26 16541

原创 kafka安装以及集成storm测试

1 zookeeper安装zookeeper的安装很简单，只需要解压后，修改下zoo.cfg，配置dataDir和server.1=节点1:2888:3888server.2=节点2:2888:3888server.3=节点3:2888:3888然后在每个节点指定的datadir下建立myid文件并写入编号同时注意修改每个节点的hosts文件启动命令，需要三个节点分别启

2015-09-30 11:09:04 1090

原创 zookeeper安装小记

1 修改hosts，添加集群中每个节点的映射，注意每个节点都要修改2 解压后cd conf，cp zoo_sample.cfg zoo.cfg打开zoo.cfg 修改一下data.dir的路径，然后增加server.1=....server.2=....server.3=3 在1,2,3对应的节点上的data.dir目录下，用vim myid创建文件，里边只写入一行，即对应的序号，1,

2015-09-28 17:52:47 314

原创关于nohup及&命令的资料

看了些资料，发现这几句话说的最清楚，来自百度百科。nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该进程还不会结束，那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。nohup就是不挂断的意思( no hang up)。如果使用nohup命令提交作业，那么在缺省情况下该作业的所有输出都被重定向到一个名为nohup.out的文件中，除非

2015-09-28 17:51:41 323

原创 storm安装小记

1 所需安装软件0.8系列的底层通信用的是zeromq，所以在安装的时候，需要安装zeromq等软件，也是网络上可以找到的很多storm安装资料中都会提到的一些软件 0.9系列底层开始支持jetty通信，但默认还是zeromq，所以要改成jetty的话，需要在storm.yaml中添加一些配置项我安装的时候下载的截止目前最新版本0.9.5，貌似默认就是jetty通信，在安装的时候

2015-09-28 17:50:19 1786

原创 url获取参数的正则表达式

1 如果X参数值为纯数字(?:^|\?|&)X=(\d*)(?:&|$)?:的作用：只匹配不捕获结果，即不返回值，不占空间，是这意思不？^即开头字符，代表X=之前没别的字符|是或者的意思\?即？字符本身&即&字符本身X=前面的这些正则的意思即是X=前面没有任何字符或者有一个？或者&即URL前半部分格式为 X=或者http://aaaaa?X=或者http://aaa

2015-09-22 17:53:30 1206

原创 hive建表存储格式造成的问题

用create table tableY as select 字段A，regexp_extractA,字段B，regexp_extractB from tableX 之后，数据比原来多了5条经查找，这5条都是其中一个字段为NULL，另外的字段全部=''百思不得其解后查询了下tableY建表的存储格式是默认的text，而tableX建表时用的是rcfile将t

2015-09-22 17:39:44 815

原创 nc工具

跟同事学的，发现在linux上上传下载文件，用rz和sz命令特别慢，后来请教了大神这个工具叫nc，在windows上装一个win版本，linux本身会自带此命令然后在linux上执行 nc -l 使用的端口号（空闲的端口号都可以） > 要接收的文件名在windows上cmd窗口中运行：nc linux的ip地址使用的端口号(空闲的端口号，与linux保持一致) 这样上传文件会很快

2015-09-18 10:46:09 936

原创 idea改字体大小

分为UI和文本框两种字体设置UI界面的字体大小，在文本框中字体，即代码字体大小，在Editor->Colors & Fonts->Font中，需要先点击save as新建一种模式，在里边调整Size即可。

2015-09-18 10:28:43 971

原创 windows上jdk改版本后，环境变量不生效

查网络解决的：安装了1.6，重新设置了环境变量，可java -version依然显示为jdk1.7原因：按path上的目录挨个找下就知道了这是因为jdk1.7把java.exe拷贝一份在c:\windows\system32，而这个路径在path的第1个找到对应文件删除即可

2015-09-18 10:27:05 1631

原创 shell和mysql使用总结

1 判断字符串是否相等，if [空格$x空格=空格$y空格]; thenfi注意，=左右的空格必不可少2 判断整数是否相等，用-eq，不相等用-ne3 ``跟$()都是执行shell命令的意思4 日期函数$(date +'%Y-%m-%d %H:%M:%S')用+指定格式用-d指定时间运算，比如往前一天$(date -d '-1 day')一般-d都要结

2015-09-18 10:25:34 915

转载 mr 分布式缓存学习

http://my.oschina.net/leejun2005/blog/206341

2015-07-14 17:27:13 727

原创长大了的小朋友

会说的话越来越多了，能p

2014-10-14 16:37:02 554

原创快两岁了

to亲爱的宝宝：马上你就要2岁了，虽然每天陪伴在你身边的时间有限，但妈妈是经历了深思熟虑以及迫于现实生活和人情各方面的考虑，妈妈的心永远都跟你在一起。最近晚上你一直睡觉很晚，我理解你是想多玩一会手机，多让爸妈陪你一会，可有时候还是会情绪失控的指责你，甚至在你夜里持续到1点多闹的时候打了你的屁股。妈妈很自责。生了你，却不能带给你很多的陪伴，只有你5个月之前的时

2014-08-28 16:53:54 453

原创关于连续的join

曾经写过用四个表连续left join的语句，执行速度特别慢，

2014-08-27 17:59:50 3764

原创如何求某个分组里面的最小时间点对应的那条记录

前段时间遇到一个需求是求一组数据里边，距离某

2014-07-09 21:36:07 1694

原创改列类型

aLTER TABLE *** CHANGE 字段x 字段x string后来发现不生效，表里已经变了，但数据依然插不进去删除重建才好的，待查alter table *** change 价格价格 double这个改完再用却生效了

2014-05-29 11:50:41 538

原创 streamtable关键字

join一般都是在reduce阶段完成的，因为在map阶段无法使同样key值的分在一个map上。而在reduce阶段的join，hive默认把左表数据放在缓存中，右边表的数据做流数据。如果你想更改这种模式的话，就用/*+streamtable(表名)*/来指定你想要做为流数据的表。最好每次写join时，小表放左边，大表放右边。试过几十万的表和1亿的表，在hive不转为map joi

2014-05-29 11:43:03 2199

原创数据倾斜2

如何避免因空值或者无意义的异常值引起的数据倾斜？首先查看是否是这些值导致的倾斜，用select key，count（1） from table group by key。如果是的话，解决方法为在on时，如下写：on case when length(a.key)符合异常条件 then concat(a.key,rand()) else a.key end =b.key;

2014-05-29 11:41:48 662

原创 hive时间戳转换

10位的时间戳值，即1970-1-1至今的秒，可以用from_unixtime()转为时间，而13位的所谓毫秒的是不可以的

2014-05-29 11:36:03 5996

原创关于lzo

要先用lzop命令压缩成lzo文件，接收到后用hadoop lzoindex命令生成索引，才能使用lzo格式，否则一个文件在mapreduce时只有一个map

2014-05-29 11:35:15 689

原创关于decimal与double数据类型

关于double和decimal类型，double类型能表示的精度不如decimal，但是其数据范围比decimal的大。对于double类型的字段，用sum函数会出现多位小数的情况，比如a+b+c原来的值应该是556361.927，但用sum函数得到的却是556361.9269999999而如果将abc转为decimal类型，则此问题解决

2014-05-29 11:34:20 8810

原创 aoeiu鱼

最近哄娃时突然想到教他念拼音字母，没有想到念的

2014-05-16 14:48:00 751

原创 hive优化总结

最近在做hive sql优化相关的一些工作，一些经历与同事分享的同时，记录于此。在优化过程中的一些总结，可能有的地方说法有待进一步验证，如下： 1 在union all子句里边最好不要有join，应该先union all之后再与其它表join，group by也是如此。 2 下面的情况除外：union all之后的表，如果是要与一个超级大表join，那么需要想

2014-03-17 10:22:30 655

原创 hivesql语法经验

在写及测的过程中发现的，有一些可能需要进一步验证。1 FAILED: NullPointerException null 不能用视图作为left outer join的右表2 FAILED: UDFArgumentTypeException Only numeric or string type arguments are accepted but decimal is

2014-03-17 10:15:40 20135

原创 dbgen安装配置

1 从http://www.tpc.org/tpch/specs.asp下载TPC-H Version 2.14.3 栏目里的tar文件上传到linux2 tar -zxvf 3 cp makefile.suite makefile vim makefile CC = gcc DATABASE = SQLSERVER MACHINE=LINUX WO

2013-12-13 14:57:49 1896

空空如也

空空如也