cajeep2001-优快云博客

原创 python中参数的传递的list形式和dict的区分

最近在使用python的时候，经常通过eval函数动态的调用对应函数，就会碰到一个参数传递的问题。如果参数比较少，那么直接就传就ok了。如果碰到 def f(a,b,c,d,e,f,g=0,h=0) eval(k)(**arg)def k(a,b,c,d,e,f,g,h=1) print a print b那么就会提示got an unexpect

2013-06-19 21:24:36 2873

原创 hive登录账号的问题

最近发现一个问题，由于hive客户端的配置文件显示，原先登录的方式都是直接用root的帐号，而非用户的帐号，导致数据都无法识别。$ENV{'HIVE_CONN_PROFILE'}="/home/dwapp/.hive_conn_profile_bak";最后在代码中添加了环境变量参数，使用备份的配置文件，该配置文件中使用用户的帐号，从而解决该问题。

2013-04-24 20:22:57 6093

原创 python中的json使用误区

1） json使用的要点，目前json是网络之间通信的一种数据格式，与xml类似，但它的格式比xml要稍微小一些，由于本项目中数据量会比较大，所以尽量采用较小存储的json格式。但用json格式的时候，会遇到将map对象转换json，以及将服务器上得到的json对象转换为map这两个问题。这个是很显然的，因为是两种异构的格式，所以必须得相互转换。在python中，使用的比较多的json类

2013-02-05 23:18:23 15370

转载 python中json.dumps打印出u字符

json.dumps在默认情况下，对于非ascii字符生成的是相对应的字符编码，而非原始字符，例如：>>> import json>>> js = json.loads('{"haha": "哈哈"}')>>> print json.dumps(js){"haha": "\u54c8\u54c8"}解决办法很简单:>>> print json.dumps(js,

2013-01-30 16:23:58 3590

转载 UnicodeEncodeError: 'ascii' codec can't encode characters

http://blog.sina.com.cn/s/blog_727b603701019pyl.html

2013-01-23 21:59:46 643

原创 python中多进程的相关技术

--如何创建的子线程。self.pid = os.fork()if self.pid == 0:code = process_obj._bootstrap()sys.stdout.flush()sys.stderr.flush()os._exit(code)os fork 创建了一个新的进程，该子进程和父进程唯一不同的就是Pid，父id的pid不为空，所以从这个判断条件

2013-01-12 22:53:01 5348

原创 python中的多线程技术

最近在做项目的时候，使用了大量的python多线程技术，结果发现效率不如想象的那么高。仔细研究了下，才发现是个人长久以来使用python多线程的一个误区: 具体问题如下：sinCpuMain.py脚本使用threading的模块创建了N个多线程，cpurate.sh是一个监控cpu使用率的脚本。通过调试不同的参数N，得到如下的表：线程数使用率

2013-01-08 09:26:39 852

原创 python的类属性和实例属性

在处理项目的代码的时候，发现如下代码在多次调用的时候会出现问题。class test1(object): _dataArr=[] def __init__(self,i): self._dataArr.append(i) def run(self): print self._dataArrt1=test1(1)t2=te

2013-01-04 21:18:40 521

原创 xp通过vnc链接ubuntu巨慢的原因

忍了好久，终于不能忍了，上网去看了下原因。怀疑是软件本身的问题，下了个tightvnc，问题也没有解决。后来突然想到原先好像一直都是可以的，从某个时间点开始就不行了。在百度上搜索良久，终于看到个可能的原因：http://help.360.cn/5030804/39404012.html 安装360之后非常慢。于是将360退出，瞬间世界和谐了。操蛋啊。。。

2012-11-06 13:39:31 2392

原创 google calendar 和outlook同步

研究好几天终于发现怎么通过calendar和outlook进行同步。--1，进入calendar的帮助页面，就可以看到怎么和outlook进行同步的介绍，按照里面的说明一步步进行就可以了。http://support.google.com/calendar/bin/answer.py?hl=zh-Hans&answer=98563&topic=13948&ctx=topic

2012-11-05 12:27:01 638

原创手工编译hive udf包

昨天在修改原先的dkrs的时候，遇到了几个问题：1，内部类问题，原先是用三个数组来实现的，改成用一个object的list，一开始采用普通的内部类，一直显示new 这个类的时候，会报错，需要将父亲实例化了之后才能使用内部类，说明内部类是依赖于实例存在的。后来听同事说明，将其改成静态的类，就可以直接new了。public class dkrs extends UDF {private s

2012-11-01 13:40:42 820

原创数据仓库杂谈

昨天跟同事聊了下目前哪些行业数据仓库比较领先，各个行业的数据仓库是怎么做的，跟互联网比，差别是什么东西，前期资源评估，数据库选型怎么搞等。有点心得，记录如下：1，目前来看，金融，保险，通信，互联网，物流这几个行业的数据仓库做的比较领先，其中由于金融和通信的业务模型比较稳定，清晰，所以基本上从业务建模，概念建模，逻辑建模，物理建模这一整套步骤都比较清晰，流程化，难怪IBM，TD已经将这些行业的数

2012-09-29 07:36:23 3290

原创 GP中编码不一致报错误

报错内容如下：character 0xf09f918c of encoding "UTF8" has no equivalent in "GB18030" (seg42 slice3 sdw33-3:30002 pid=18579)一开始以为是客户端的编码类型没有转换。设置了set client_encoding to utf8;之后，问题仍旧没有解决。迷糊中记得gp的开窗函

2012-09-06 01:57:21 2629

原创 [python优化]readlines内存溢出

最近遇到诡异问题，代码跑了2个小时，还没有跑出来，被运维组的同学给杀掉了。看了下记录的日志，发现是在执行如下代码的时候卡住了：for line in fp_des.readlines(): line_arr=line.strip().split("\005",max(email_pos,prod_pos)+1) emai

2012-08-17 22:58:50 5670

原创 hive中剔除非utf8编码的数据

最近在做hive数据导出的时候，发现有很多数据行存在不一致的编码的类型，导致编码转换的时候，遇到错误，比如一行数据中又存在utf8编码的数据，又存在gbk编码的数据，而对于中文来说，gbk和utf8的编码是不一样的。所以一旦为gbk的数据用utf8进行解码的时候，会报错。因此，需要将这部分混在utf8编码数据中的gbk编码数据剔除掉。利用python脚本，然后进行transform，来完成剔除

2012-08-11 10:54:43 4597

原创坑爹的No matching method

最近自己写了个udf，发现怎么样都不行，代码如下： public String evalulate() { return "hello worlds!"; } public String evalulate(String str) {

2012-08-08 10:49:18 6644

原创新增自定义的udf包

由于需要满足一个hive中不等值连接的需求，必须得自己手工写udf。以前也没有试过，所以今天尝试了下自己写了个TestHello.java.由于没有用eclipse，所以直接用的是ultraedi+javac搞定的。--在/home/dwdev/cajeep目录下，新建com\alibaba\hive\udf,--命令mkdir -p com\alibaba\hive\udf--新

2012-08-02 22:08:08 6871

hive中的启动的map数据量，以及reduce的数据量，都是由系统给控制的，一般来说，map的数据量是由文件的个数，以及文件量的大小所决定。如果你的文件很多，那么每个文件必然会启动一个map进行处理，或者你的文件非常大，是hdfs中block_size的N倍，那么就会分成N个文件，同样会启动N个map进行处理。而reduce的数据量则是根据你的key多少来决定的，一旦你的map生成的key非常多

2012-07-30 22:34:34 8273

原创杂记20120713

今天又跟同事聊了蛮久的未来发展，我还是坚持我的想法：做一名数据仓库架构师，能够对日志的生成，网站内容的抽取，数据模型的搭建，数据分析体系，数据应用等各方面有所涉猎，一旦有机会需要我去搭建一整套的数据仓库，或者搭建某个应用平台(EDM,个性化推荐)，也能够轻松的搞定。同事则认为需要做精，做深，比如个性化推荐，专攻平台的搭建，算法的改良。其他的东西尽量少理。但是我觉得这样容易让自己的思维变窄，

2012-07-13 22:40:20 452

原创 hive/gp/oracle外关联时写法的区别

目前在做hive上表关联的时候，觉得有些以前oracle sql的写法效率特低。尤其是左表的限制条件是写里面，还是写外面的问题，hive和另外两种sql还是有区别的：oracle：--写外面explain plan for select count(*) as cnt 2 from cj_0711_tmp1 a 3 left outer join 4

2012-07-12 22:49:16 2266

原创一点感想<读浪潮之巅>

这书到今天总算看完了，作者吴军真像是个IT历史的活字典啊，对于20世纪以来的电子信息，通讯，计算机，互联网等变革，如数家珍，娓娓道来，基本上看完了这本书，对近百年来的科技演化，能有一个大概得认识了，知道为什么微软，google，yahoo，英特尔，思科能够异军突起，在短短数十年建立起一个庞大的版图，同样的moto,att等公司的衰弱也让人惋惜。印象最深的几点摘录如下：70,20,10理论。演化

2012-07-10 22:22:14 617

原创简章

我是从2010年4月开始踏上了数据仓库的道路，至今已经有2年多3个月了。具体的工作包括etl开发，数据分析，数据挖掘等围绕数据的一系列事情，涉及的业务主要是邮件营销，产品推荐等。当初只是觉得写了近4年的java，有点腻了，想换个方向，而且本身研究生阶段对推荐系统比较感兴趣，于是毕业后就过来从事和数据相关的工作了(没想到现在又要重新开操java)。以后争取每天写点东西，将知识沉淀下来，方

2012-07-09 21:58:42 314

原创 first blog

没啥，就是想对近三年的工作心得给整理，分析分析哪些不足，哪些是已经掌握的核心技能。that's all

2012-07-09 21:45:19 296

cajeep2001的专栏