自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python中参数的传递的list形式和dict的区分

最近在使用python的时候,经常通过eval函数动态的调用对应函数,就会碰到一个参数传递的问题。如果参数比较少,那么直接就传就ok了。如果碰到 def f(a,b,c,d,e,f,g=0,h=0)    eval(k)(**arg)def k(a,b,c,d,e,f,g,h=1)   print a   print b那么就会提示got an unexpect

2013-06-19 21:24:36 2873

原创 hive登录账号的问题

最近发现一个问题,由于hive客户端的配置文件显示,原先登录的方式都是直接用root的帐号,而非用户的帐号,导致数据都无法识别。$ENV{'HIVE_CONN_PROFILE'}="/home/dwapp/.hive_conn_profile_bak";最后在代码中添加了环境变量参数,使用备份的配置文件,该配置文件中使用用户的帐号,从而解决该问题。

2013-04-24 20:22:57 6093

原创 python中的json使用误区

1)  json使用的要点,目前json是网络之间通信的一种数据格式,与xml类似,但它的格式比xml要稍微小一些,由于本项目中数据量会比较大,所以尽量采用较小存储的json格式。但用json格式的时候,会遇到将map对象转换json,以及将服务器上得到的json对象转换为map这两个问题。这个是很显然的,因为是两种异构的格式,所以必须得相互转换。在python中,使用的比较多的json类

2013-02-05 23:18:23 15370

转载 python中json.dumps打印出u字符

json.dumps在默认情况下,对于非ascii字符生成的是相对应的字符编码,而非原始字符,例如:>>> import json>>> js = json.loads('{"haha": "哈哈"}')>>> print json.dumps(js){"haha": "\u54c8\u54c8"}解决办法很简单:>>> print json.dumps(js,

2013-01-30 16:23:58 3590

转载 UnicodeEncodeError: 'ascii' codec can't encode characters

http://blog.sina.com.cn/s/blog_727b603701019pyl.html

2013-01-23 21:59:46 643

原创 python中多进程的相关技术

--如何创建的子线程。self.pid = os.fork()if self.pid == 0:code = process_obj._bootstrap()sys.stdout.flush()sys.stderr.flush()os._exit(code)os fork 创建了一个新的进程,该子进程和父进程唯一不同的就是Pid,父id的pid不为空,所以从这个判断条件

2013-01-12 22:53:01 5348

原创 python中的多线程技术

最近在做项目的时候,使用了大量的python多线程技术,结果发现效率不如想象的那么高。仔细研究了下,才发现是个人长久以来使用python多线程的一个误区:         具体问题如下:sinCpuMain.py脚本使用threading的模块创建了N个多线程,cpurate.sh是一个监控cpu使用率的脚本。通过调试不同的参数N,得到如下的表:线程数使用率

2013-01-08 09:26:39 852

原创 python的类属性和实例属性

在处理项目的代码的时候,发现如下代码在多次调用的时候会出现问题。class test1(object):    _dataArr=[]    def __init__(self,i):        self._dataArr.append(i)    def run(self):        print self._dataArrt1=test1(1)t2=te

2013-01-04 21:18:40 521

原创 xp通过vnc链接ubuntu巨慢的原因

忍了好久,终于不能忍了,上网去看了下原因。怀疑是软件本身的问题,下了个tightvnc,问题也没有解决。后来突然想到原先好像一直都是可以的,从某个时间点开始就不行了。在百度上搜索良久,终于看到个可能的原因:http://help.360.cn/5030804/39404012.html 安装360之后非常慢。于是将360退出,瞬间世界和谐了。操蛋啊。。。

2012-11-06 13:39:31 2392

原创 google calendar 和outlook同步

研究好几天终于发现怎么通过calendar和outlook进行同步。--1,进入calendar的帮助页面,就可以看到怎么和outlook进行同步的介绍,按照里面的说明一步步进行就可以了。http://support.google.com/calendar/bin/answer.py?hl=zh-Hans&answer=98563&topic=13948&ctx=topic

2012-11-05 12:27:01 638

原创 手工编译hive udf包

昨天在修改原先的dkrs的时候,遇到了几个问题:1,内部类问题,原先是用三个数组来实现的,改成用一个object的list,一开始采用普通的内部类,一直显示new 这个类的时候,会报错,需要将父亲实例化了之后才能使用内部类,说明内部类是依赖于实例存在的。后来听同事说明,将其改成静态的类,就可以直接new了。public class dkrs extends UDF {private s

2012-11-01 13:40:42 820

原创 数据仓库杂谈

昨天跟同事聊了下目前哪些行业数据仓库比较领先,各个行业的数据仓库是怎么做的,跟互联网比,差别是什么东西,前期资源评估,数据库选型怎么搞等。有点心得,记录如下:1,目前来看,金融,保险,通信,互联网,物流这几个行业的数据仓库做的比较领先,其中由于金融和通信的业务模型比较稳定,清晰,所以基本上从业务建模,概念建模,逻辑建模,物理建模这一整套步骤都比较清晰,流程化,难怪IBM,TD已经将这些行业的数

2012-09-29 07:36:23 3290

原创 GP中编码不一致报错误

报错内容如下:character 0xf09f918c of encoding "UTF8" has no equivalent in "GB18030"  (seg42 slice3 sdw33-3:30002 pid=18579)一开始以为是客户端的编码类型没有转换。设置了set client_encoding to utf8;之后,问题仍旧没有解决。迷糊中记得gp的开窗函

2012-09-06 01:57:21 2629

原创 [python优化]readlines内存溢出

最近遇到诡异问题,代码跑了2个小时,还没有跑出来,被运维组的同学给杀掉了。看了下记录的日志,发现是在执行如下代码的时候卡住了:for line in fp_des.readlines():                 line_arr=line.strip().split("\005",max(email_pos,prod_pos)+1)                emai

2012-08-17 22:58:50 5670

原创 hive中剔除非utf8编码的数据

最近在做hive数据导出的时候,发现有很多数据行存在不一致的编码的类型,导致编码转换的时候,遇到错误,比如一行数据中又存在utf8编码的数据,又存在gbk编码的数据,而对于中文来说,gbk和utf8的编码是不一样的。所以一旦为gbk的数据用utf8进行解码的时候,会报错。因此,需要将这部分混在utf8编码数据中的gbk编码数据剔除掉。利用python脚本,然后进行transform,来完成剔除

2012-08-11 10:54:43 4597

原创 坑爹的No matching method

最近自己写了个udf,发现怎么样都不行 ,代码如下:        public String evalulate()        {                return "hello worlds!";        }        public String evalulate(String str)        {

2012-08-08 10:49:18 6644

原创 新增自定义的udf包

由于需要满足一个hive中不等值连接的需求,必须得自己手工写udf。以前也没有试过,所以今天尝试了下自己写了个TestHello.java.由于没有用eclipse,所以直接用的是ultraedi+javac搞定的。--在/home/dwdev/cajeep目录下,新建com\alibaba\hive\udf,--命令mkdir -p com\alibaba\hive\udf--新

2012-08-02 22:08:08 6871

原创 hive优化【增加执行的map数,reduce数】

hive中的启动的map数据量,以及reduce的数据量,都是由系统给控制的,一般来说,map的数据量是由文件的个数,以及文件量的大小所决定。如果你的文件很多,那么每个文件必然会启动一个map进行处理,或者你的文件非常大,是hdfs中block_size的N倍,那么就会分成N个文件,同样会启动N个map进行处理。而reduce的数据量则是根据你的key多少来决定的,一旦你的map生成的key非常多

2012-07-30 22:34:34 8273

原创 杂记20120713

今天又跟同事聊了蛮久的未来发展,我还是坚持我的想法:做一名数据仓库架构师,能够对日志的生成,网站内容的抽取,数据模型的搭建,数据分析体系,数据应用等各方面有所涉猎,一旦有机会需要我去搭建一整套的数据仓库,或者搭建某个应用平台(EDM,个性化推荐),也能够轻松的搞定。同事则认为需要做精,做深,比如个性化推荐,专攻平台的搭建,算法的改良。其他的东西尽量少理。但是我觉得这样容易让自己的思维变窄,

2012-07-13 22:40:20 452

原创 hive/gp/oracle外关联时写法的区别

目前在做hive上表关联的时候,觉得有些以前oracle sql的写法效率特低。尤其是左表的限制条件是写里面,还是写外面的问题,hive和另外两种sql还是有区别的:oracle:--写外面explain plan for select count(*) as cnt  2  from cj_0711_tmp1 a  3  left outer join   4

2012-07-12 22:49:16 2266

原创 一点感想<读浪潮之巅>

这书到今天总算看完了,作者吴军真像是个IT历史的活字典啊,对于20世纪以来的电子信息,通讯,计算机,互联网等变革,如数家珍,娓娓道来,基本上看完了这本书,对近百年来的科技演化,能有一个大概得认识了,知道为什么微软,google,yahoo,英特尔,思科能够异军突起,在短短数十年建立起一个庞大的版图,同样的moto,att等公司的衰弱也让人惋惜。印象最深的几点摘录如下:70,20,10理论。演化

2012-07-10 22:22:14 617

原创 简章

我是从2010年4月开始踏上了数据仓库的道路,至今已经有2年多3个月了。具体的工作包括etl开发,数据分析,数据挖掘等围绕数据的一系列事情,涉及的业务主要是邮件营销,产品推荐等。当初只是觉得写了近4年的java,有点腻了,想换个方向,而且本身研究生阶段对推荐系统比较感兴趣,于是毕业后就过来从事和数据相关的工作了(没想到现在又要重新开操java)。以后争取每天写点东西,将知识沉淀下来,方

2012-07-09 21:58:42 314

原创 first blog

没啥,就是想对近三年的工作心得给整理,分析分析哪些不足,哪些是已经掌握的核心技能。that's all

2012-07-09 21:45:19 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除