
python编程
jiedushi
大数据10年左右工作经验,喜欢工作中遇到的问题与解决整理到博客
展开
-
用python分析apache等web日志
1 分析日志的python框架awk.py## Custom awk.py module#class controller: def __init__(self, f): self.m_file = f self.m_handl原创 2011-07-15 11:16:02 · 4229 阅读 · 0 评论 -
python守护进程监控hive server
1. 首先将hive thrift server添加到系统服务后台运行 添加方法地址http://jiedushi.blog.51cto.com/673653/6089902. 利用python daemon守护进程监控hive server进程 ,代码如下#!/usr/bin/env pythonimport sys, os, time, atexit, string原创 2012-05-08 13:36:35 · 2473 阅读 · 0 评论 -
python利用thrift连接hive
Thrift是一个跨语言服务部署框架,最初由Facebook于2007年开发,后于2008年进入Apache孵化器(Apache Incubator)。类似于SOAP,COM 和CORBA,Thrift通过定义一个中间定义语言和Thrift代码生成工具,生成指定语言的代码。目前,Thrift支持C++,Java, Python, PHP, Ruby, Erlang, Perl, Haskell原创 2012-05-03 15:30:12 · 13455 阅读 · 2 评论 -
centos 5.8升级python 2.4到2.7
centos 5.8系统中的python版本默认是2.4 ,升级到2.7需要手动编译安装1. 安装python2.7依赖库 yum -y groupinstall 'Development Tools' yum -y install openssl-devel* ncurses-devel* zlib*.x86_64 yum -y install bzip原创 2012-04-16 13:54:43 · 4577 阅读 · 0 评论 -
Hadoop Streaming Made Simple using Joins and Keys with Python
There are a lot of different ways to write MapReduce jobs!!!Sample code for this post https://github.com/joestein/amaunetI find streaming scripts a good way to interrogate data sets (especiall转载 2012-04-12 17:02:04 · 1253 阅读 · 0 评论 -
python统计日志ip访问数脚本
import retudou@Gyyxf=open("/tmp/a.log","r")arr={}lines = f.readlines()for line in lines: ipaddress=re.compile(r'^#(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))') mat转载 2012-03-28 16:14:58 · 2890 阅读 · 0 评论 -
python字符串与数字的转化
数字变为字符串 str(4)字符串变为数字 string.atoi(s,[,base]) //base为进制基数浮点数转换 string.atof(s)字符转数字 int(str)转载 2012-03-24 15:47:00 · 146055 阅读 · 0 评论 -
python字符串
http://blog.youkuaiyun.com/tianlesoftware/article/details/6753112#encoding=utf-8#序列:字符串、列表和元组#*******************************************#***************** 字符串 ****************#*************转载 2011-11-10 07:57:31 · 1554 阅读 · 1 评论 -
python输出中文
1。在程序头包含:# -*- coding: utf-8 -*-#!/usr/bin/python# -*- coding: utf-8 -*-2。保存的时候,存成utf-8格式,因为python内部用的是unicode编码,而且最好是保存是把bom标志去掉。转载 2011-09-12 21:40:28 · 1623 阅读 · 0 评论 -
python 去除 list 重复元素
比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2 还有一种据说速度更快的,没测试过两者的速度差别l1 = ['b','c','d','b','c','a'原创 2011-09-12 20:53:49 · 31610 阅读 · 0 评论 -
Python多行注释技巧
Python语言本身是没有注释多行的支持的,如果需要注册多行,可以用一个取巧的方法,就是把需要注释的代码块用三个单引号或者双引号括起来,赋值为一个永远都不会使用的字符串变量,例如:__devilcomment = '''if bCmpLog == "True":转载 2011-09-10 09:18:48 · 23915 阅读 · 0 评论 -
用python提取url链接中的域名与端口
import urllibproto, rest = urllib.splittype("http://www.baidu.com/11/12.htm")host, rest = urllib.splithost(rest)print hosthost, port = u原创 2011-07-15 11:52:21 · 8107 阅读 · 0 评论 -
Python执行系统命令的方法 os.system(),os.popen(),commands
最近在做那个测试框架的时候发现 Python 的另一个获得系统执行命令的返回值和输出的类。最开始的时候用 Python 学会了 os.system() 这个方法是很多比如 C,Perl 相似的。os.system('cat /proc/cpuinfo')但是这样是无法获得到输出和返回值的,继续 Google,之后学会了 os.popen()。转载 2012-05-22 09:03:46 · 6583 阅读 · 0 评论