- 博客(23)
- 收藏
- 关注
原创 python中参数的传递的list形式和dict的区分
最近在使用python的时候,经常通过eval函数动态的调用对应函数,就会碰到一个参数传递的问题。如果参数比较少,那么直接就传就ok了。如果碰到 def f(a,b,c,d,e,f,g=0,h=0) eval(k)(**arg)def k(a,b,c,d,e,f,g,h=1) print a print b那么就会提示got an unexpect
2013-06-19 21:24:36
2873
原创 hive登录账号的问题
最近发现一个问题,由于hive客户端的配置文件显示,原先登录的方式都是直接用root的帐号,而非用户的帐号,导致数据都无法识别。$ENV{'HIVE_CONN_PROFILE'}="/home/dwapp/.hive_conn_profile_bak";最后在代码中添加了环境变量参数,使用备份的配置文件,该配置文件中使用用户的帐号,从而解决该问题。
2013-04-24 20:22:57
6093
原创 python中的json使用误区
1) json使用的要点,目前json是网络之间通信的一种数据格式,与xml类似,但它的格式比xml要稍微小一些,由于本项目中数据量会比较大,所以尽量采用较小存储的json格式。但用json格式的时候,会遇到将map对象转换json,以及将服务器上得到的json对象转换为map这两个问题。这个是很显然的,因为是两种异构的格式,所以必须得相互转换。在python中,使用的比较多的json类
2013-02-05 23:18:23
15370
转载 python中json.dumps打印出u字符
json.dumps在默认情况下,对于非ascii字符生成的是相对应的字符编码,而非原始字符,例如:>>> import json>>> js = json.loads('{"haha": "哈哈"}')>>> print json.dumps(js){"haha": "\u54c8\u54c8"}解决办法很简单:>>> print json.dumps(js,
2013-01-30 16:23:58
3590
转载 UnicodeEncodeError: 'ascii' codec can't encode characters
http://blog.sina.com.cn/s/blog_727b603701019pyl.html
2013-01-23 21:59:46
643
原创 python中多进程的相关技术
--如何创建的子线程。self.pid = os.fork()if self.pid == 0:code = process_obj._bootstrap()sys.stdout.flush()sys.stderr.flush()os._exit(code)os fork 创建了一个新的进程,该子进程和父进程唯一不同的就是Pid,父id的pid不为空,所以从这个判断条件
2013-01-12 22:53:01
5348
原创 python中的多线程技术
最近在做项目的时候,使用了大量的python多线程技术,结果发现效率不如想象的那么高。仔细研究了下,才发现是个人长久以来使用python多线程的一个误区: 具体问题如下:sinCpuMain.py脚本使用threading的模块创建了N个多线程,cpurate.sh是一个监控cpu使用率的脚本。通过调试不同的参数N,得到如下的表:线程数使用率
2013-01-08 09:26:39
852
原创 python的类属性和实例属性
在处理项目的代码的时候,发现如下代码在多次调用的时候会出现问题。class test1(object): _dataArr=[] def __init__(self,i): self._dataArr.append(i) def run(self): print self._dataArrt1=test1(1)t2=te
2013-01-04 21:18:40
521
原创 xp通过vnc链接ubuntu巨慢的原因
忍了好久,终于不能忍了,上网去看了下原因。怀疑是软件本身的问题,下了个tightvnc,问题也没有解决。后来突然想到原先好像一直都是可以的,从某个时间点开始就不行了。在百度上搜索良久,终于看到个可能的原因:http://help.360.cn/5030804/39404012.html 安装360之后非常慢。于是将360退出,瞬间世界和谐了。操蛋啊。。。
2012-11-06 13:39:31
2392
原创 google calendar 和outlook同步
研究好几天终于发现怎么通过calendar和outlook进行同步。--1,进入calendar的帮助页面,就可以看到怎么和outlook进行同步的介绍,按照里面的说明一步步进行就可以了。http://support.google.com/calendar/bin/answer.py?hl=zh-Hans&answer=98563&topic=13948&ctx=topic
2012-11-05 12:27:01
638
原创 手工编译hive udf包
昨天在修改原先的dkrs的时候,遇到了几个问题:1,内部类问题,原先是用三个数组来实现的,改成用一个object的list,一开始采用普通的内部类,一直显示new 这个类的时候,会报错,需要将父亲实例化了之后才能使用内部类,说明内部类是依赖于实例存在的。后来听同事说明,将其改成静态的类,就可以直接new了。public class dkrs extends UDF {private s
2012-11-01 13:40:42
820
原创 数据仓库杂谈
昨天跟同事聊了下目前哪些行业数据仓库比较领先,各个行业的数据仓库是怎么做的,跟互联网比,差别是什么东西,前期资源评估,数据库选型怎么搞等。有点心得,记录如下:1,目前来看,金融,保险,通信,互联网,物流这几个行业的数据仓库做的比较领先,其中由于金融和通信的业务模型比较稳定,清晰,所以基本上从业务建模,概念建模,逻辑建模,物理建模这一整套步骤都比较清晰,流程化,难怪IBM,TD已经将这些行业的数
2012-09-29 07:36:23
3290
原创 GP中编码不一致报错误
报错内容如下:character 0xf09f918c of encoding "UTF8" has no equivalent in "GB18030" (seg42 slice3 sdw33-3:30002 pid=18579)一开始以为是客户端的编码类型没有转换。设置了set client_encoding to utf8;之后,问题仍旧没有解决。迷糊中记得gp的开窗函
2012-09-06 01:57:21
2629
原创 [python优化]readlines内存溢出
最近遇到诡异问题,代码跑了2个小时,还没有跑出来,被运维组的同学给杀掉了。看了下记录的日志,发现是在执行如下代码的时候卡住了:for line in fp_des.readlines(): line_arr=line.strip().split("\005",max(email_pos,prod_pos)+1) emai
2012-08-17 22:58:50
5670
原创 hive中剔除非utf8编码的数据
最近在做hive数据导出的时候,发现有很多数据行存在不一致的编码的类型,导致编码转换的时候,遇到错误,比如一行数据中又存在utf8编码的数据,又存在gbk编码的数据,而对于中文来说,gbk和utf8的编码是不一样的。所以一旦为gbk的数据用utf8进行解码的时候,会报错。因此,需要将这部分混在utf8编码数据中的gbk编码数据剔除掉。利用python脚本,然后进行transform,来完成剔除
2012-08-11 10:54:43
4597
原创 坑爹的No matching method
最近自己写了个udf,发现怎么样都不行 ,代码如下: public String evalulate() { return "hello worlds!"; } public String evalulate(String str) {
2012-08-08 10:49:18
6644
原创 新增自定义的udf包
由于需要满足一个hive中不等值连接的需求,必须得自己手工写udf。以前也没有试过,所以今天尝试了下自己写了个TestHello.java.由于没有用eclipse,所以直接用的是ultraedi+javac搞定的。--在/home/dwdev/cajeep目录下,新建com\alibaba\hive\udf,--命令mkdir -p com\alibaba\hive\udf--新
2012-08-02 22:08:08
6871
原创 hive优化【增加执行的map数,reduce数】
hive中的启动的map数据量,以及reduce的数据量,都是由系统给控制的,一般来说,map的数据量是由文件的个数,以及文件量的大小所决定。如果你的文件很多,那么每个文件必然会启动一个map进行处理,或者你的文件非常大,是hdfs中block_size的N倍,那么就会分成N个文件,同样会启动N个map进行处理。而reduce的数据量则是根据你的key多少来决定的,一旦你的map生成的key非常多
2012-07-30 22:34:34
8273
原创 杂记20120713
今天又跟同事聊了蛮久的未来发展,我还是坚持我的想法:做一名数据仓库架构师,能够对日志的生成,网站内容的抽取,数据模型的搭建,数据分析体系,数据应用等各方面有所涉猎,一旦有机会需要我去搭建一整套的数据仓库,或者搭建某个应用平台(EDM,个性化推荐),也能够轻松的搞定。同事则认为需要做精,做深,比如个性化推荐,专攻平台的搭建,算法的改良。其他的东西尽量少理。但是我觉得这样容易让自己的思维变窄,
2012-07-13 22:40:20
452
原创 hive/gp/oracle外关联时写法的区别
目前在做hive上表关联的时候,觉得有些以前oracle sql的写法效率特低。尤其是左表的限制条件是写里面,还是写外面的问题,hive和另外两种sql还是有区别的:oracle:--写外面explain plan for select count(*) as cnt 2 from cj_0711_tmp1 a 3 left outer join 4
2012-07-12 22:49:16
2266
原创 一点感想<读浪潮之巅>
这书到今天总算看完了,作者吴军真像是个IT历史的活字典啊,对于20世纪以来的电子信息,通讯,计算机,互联网等变革,如数家珍,娓娓道来,基本上看完了这本书,对近百年来的科技演化,能有一个大概得认识了,知道为什么微软,google,yahoo,英特尔,思科能够异军突起,在短短数十年建立起一个庞大的版图,同样的moto,att等公司的衰弱也让人惋惜。印象最深的几点摘录如下:70,20,10理论。演化
2012-07-10 22:22:14
617
原创 简章
我是从2010年4月开始踏上了数据仓库的道路,至今已经有2年多3个月了。具体的工作包括etl开发,数据分析,数据挖掘等围绕数据的一系列事情,涉及的业务主要是邮件营销,产品推荐等。当初只是觉得写了近4年的java,有点腻了,想换个方向,而且本身研究生阶段对推荐系统比较感兴趣,于是毕业后就过来从事和数据相关的工作了(没想到现在又要重新开操java)。以后争取每天写点东西,将知识沉淀下来,方
2012-07-09 21:58:42
314
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅