- 博客(63)
- 资源 (4)
- 收藏
- 关注
原创 ConfigParser大小写问题
confiig = ConfigParser.ConfigParser()config.read('xxx.ini') #这个read表示对某个文件用读打开,把文件内容读进结构config.set(section, option, value) #修改吧config.write(open('anyFileYouWannaWrite.ini', 'w') #写可以看到,这个r
2012-12-13 17:10:56
3713
转载 python 判断中英文、数字及全角半角等
def is_chinese(uchar):"""判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return True else: return Falsedef is_number(uchar):"""判断一个unicode是否是数字""" if uc
2012-11-16 13:56:13
5032
原创 hadoop的常用参数
1. 往map或reduce传入参数-cmdenv name=valuename在reduce或map的机器上就是环境变量的名字,在python里可以使用:os.environ['name'] 获取value;2. 使用自己的python-cacheArchive " /user/username/python.tar.gz#python"python.tar.gz
2012-11-06 11:11:50
3723
转载 python map和reduce的用法
map(function, sequence[, sequence, ...]) -> list Return a list of the results of applying the function to the items of the argument sequence(s). If more than one sequence is given, the functio
2012-10-29 14:26:11
656
转载 Python的print 格式化输出
使用print输出各型的字符串整数浮点数出度及精度控制strHello = 'Hello Python' print strHello#输出结果:Hello Python#直接出字符串1.格式化输出整数python print也支持参数格式化,与C言的printf似,strHello = "the length of (%s)
2012-10-29 13:59:00
565
转载 python中的专用类方法
1.__getitem__专用方法1 >>> map = {'name':'c小加'}2 >>> map.__getitem__("name")3 'c\xe5\xb0\x8f\xe5\x8a\xa0'只是重定向到字典,返回字典的值2.__setitem__专用方法1 >>> map = {'name':'c小加'}2 >>> map.__setitem__
2012-10-29 13:45:36
694
原创 R中因子分析的得分计算
主要是为了理解因子得分,跟factanal计算出来的比较。data(USArrests)fa D A D1 x #Bartlett方法(最小二乘法)因子得分为f 然后标准化就是fa$scores了fa r Thompson方法(回归方法)f
2012-10-25 11:45:51
8038
转载 雅可比矩阵 和 海森矩阵
雅可比矩阵 假设F:Rn→Rm 是一个从欧式n维空间转换到欧式m维空间的函数。这个函数由m个实函数组成: y1(x1,...,xn), ..., ym(x1,...,xn). 这些函数的偏导数(如果存在)可以组成一个m行n列的矩阵,这就是所谓的雅可比矩阵:此矩阵表示为: ,或者 这个矩阵的第i行是由梯度函数的转置yi(i=1,...,m)表示的 在数学
2012-10-23 14:53:38
6327
转载 Kolmogorov-Smirnov检验
Kolmogorov-Smirnov检验它是检验单一样本是否来自某一特定分布的方法。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。即对于假设检验问题:H0:样本所来自的总体分布服从某特定分布H1:样本所来自的总体分布不服从某特定分布这里我们仅以Kolmogorov-Smirnov正
2012-09-25 11:05:01
13001
3
原创 R 数据框操作
1. 按条件提取某些样本> data subj sex age presentation product choice1 1 M 21 absdiff pillow Y2 1 M 21 absdiff table Y3 1 M 21 absdiff helmet Y
2012-09-20 16:51:44
2720
原创 数据挖掘中的抽样算法
在数据挖掘中,经常会用到抽样,比如欠(过)采样等,总的说来有两种,一种是已知样本总量n,从中随机抽m个样本;另一种是未知样本总量,从中抽取m个样本,这种情况一般是流数据,或者是很大量的数据。 问题描述就是从n个数中随机选出m个有序数字,不允许重复选择。这里n>m。下面的算法来自《编程珠玑》,或者《计算机程序设计艺术》1.当n已知依次考虑整数0,1,2。。。n-1,通过适当的随机测试
2012-09-19 16:25:11
4061
原创 pyhon 循环中的else
>>> for i in range(0,10): if i > 10: break; else: print "hello world";输出:hello world>>> for i in range(0,10): if i > 5: break; else:
2012-09-19 13:35:30
520
转载 Python 调试 PDB
在python中使用pdb模块可以进行调试import pdbpdb.set_trace()也可以使用python -m pdb mysqcript.py这样的方式(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h 说明下这几个关键 命令>断点设置 (Pdb)b 10 #断点设置在本py的第10行 或(Pdb
2012-09-17 17:18:41
694
转载 Python中的None
None是一个特殊的常量。None和False不同。None不是0。None不是空字符串。None和任何其他的数据类型比较永远返回False。None有自己的数据类型NoneType。你可以将None复制给任何变量,但是你不能创建其他NoneType对象。
2012-09-17 16:42:17
2414
转载 Python list 操作
创建列表sample_list = ['a',1,('a','b')]Python 列表操作sample_list = ['a','b',0,1,3]得到列表中的某一个值value_start = sample_list[0]end_value = sample_list[-1]删除列表的第一个值del sample_list[0]在列表中插入一个值samp
2012-09-12 16:11:51
665
原创 python 错误类型总结
1)RuntimeError 一般的运行时错误:在运行中修改dict的key;2) TypeError 对类型无效的操作:比如str和list用‘+’相连接,即会抛出该错误;
2012-09-11 15:01:50
765
转载 字符串的几个操作
1)Python 截取字符串使用 变量[头下标:尾下标],就可以截取相应的字符串,其中下标是从0开始算起,可以是正数或负数,下标可以为空表示取到头或尾。# 例1:字符串截取str = '12345678'print str[0:1]>> 1 # 输出str位置0开始到位置1以前的字符print str[1:6] >> 23456 # 输出str位置1开始到位置
2012-09-11 11:31:17
375
转载 dict操作
1 初始化>>> d = dict(name='visaya', age=20)使用元祖初始化:>>> dict([('a', 1), ('b', 2)]){'a': 1, 'b': 2} 使用list初始化:>>> dict([['a', 1], ['b',2]]){'a': 1, 'b': 2}#dict.fromkeys(listkeys, defaul
2012-09-10 16:56:56
553
原创 emacs 常用操作
1. 矩形操作C-x r kkill-rectangle剪切当前的矩形区块,并将其保存在一个特殊的矩形区块缓冲区中。C-x r ddelete-rectangle删除当前的矩形区块,并不为粘贴而保存它。C-x r cclear-rectangle清除当前的矩形区块,使用空白字符替换整个区域。C-x r oopen-re
2012-09-05 18:04:44
734
转载 Python进制转换(二进制、十进制和十六进制)
#!/usr/bin/env python# -*- coding: utf-8 -*-# 2/10/16 base trans. wrote by srcdog on 20th, April, 2009# ld elements in base 2, 10, 16.import os,sys# global definition# base = [0, 1, 2, 3, 4, 5
2012-09-04 15:24:56
4876
原创 Hadoop Streaming 实战: 二次排序
我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartiti
2012-08-28 14:56:41
4463
转载 linux 的date命令及系统时间设置
Linux时钟分为系统时钟(System Clock)和硬件(Real Time Clock,简称RTC)时钟。系统时钟是指当前Linux Kernel中的时钟,而硬件时钟则是主板上由电池供电的时钟,这个硬件时钟可以在BIOS中进行设置。当Linux启动时,硬件时钟会去读取系统时钟的设置,然后系统时钟就会独立于硬件运作。Linux中的所有命令(包括函数)都是采用的系统时钟设置。在Linux中,
2012-08-27 18:28:25
727
原创 利用date进行时间计算,循环
利用date进行时间计算:两天前: date +%Y%m%d -d " -2 day" 2007/2/12 前14天是什么: date +%Y%m%d -d " 2007/02/12 -14 day"十分钟之前:date +"%m-%d %H:%M" -d " -10 minute"例如:[angus]$ date +"%m-%d %H:%M" 02-10 11:0
2012-08-27 13:57:33
702
转载 在Python中使用属性Property
假设定义了一个类:C,该类必须继承自object类,有一私有变量_xclass C:def __init__(self):self.__x=None[b] 1.现在介绍第一种使用属性的方法:[/b]在该类中定义三个函数,分别用作赋值、取值和删除变量(此处表达也许不很清晰,请看示例)def getx(self):return self.__xdef setx(sel
2012-08-21 17:07:33
833
转载 python 运算符
逻辑运算符与逻辑表达式 Python的逻辑运算符与C#有较大区别,Python用关键字and、or、not代替了C#语言中的逻辑运算符&&、|| 和! ,此外Pyhton中参与逻辑运算的操作数不限于布尔类型,任何类型的值都可以参与逻辑运算,参见1.2.2节(布尔类型)的讨论。powered by 25175.net 用逻辑运算符将操作数或表达式连接起来就是逻辑表达式。与C#一样,Pyt
2012-08-14 17:27:15
1133
原创 c++正则表达式
#include #include #include #define SUBSLEN 10 /* 匹配子串的数量 */#define EBUFLEN 128 /* 错误消息buffer长度 */#define BUFLEN 1024 /* 匹配到的字符串buffer长度 */int main(){
2012-07-13 15:12:08
358
转载 sphinx代码结构
Coreseek代码结构分析本文档对coreseek的系统组成和代码主要流程做一个说明。一.Coreseek的系统组成Coreseek整个系统的组成,可用下图来表示。整个coreseek系统由多个可执行程序和一套api组成。1. 可执行程序主要由下面这些组成:a) 索引建立和维护程序(索引程序indexer)b) 查询服务程序(后台服务程序
2012-06-09 15:22:13
676
原创 图的各种算法
找工作时当练习写的,仅供参考。头文件:#ifndef GRAPH_H_INCLUDED#define GRAPH_H_INCLUDED#define Max 10000//adjacent matrixclass MGraph{ private: int TotVer; vector Vertics; vector > E
2012-05-24 15:47:51
450
转载 斐波那契堆(不太详尽)
总结:这一章讲了斐波那契堆,它是一种比二项堆更松散的堆,它由一组无序的二项树组成,对不涉及删除元素的操作,它仅需O(1)的平摊运行时间。本章介绍斐波那契堆的插入、合并、删除等操作。 1. 斐波那契堆的结构每个结点x的域:1) 父节点p[x]2) 指向任一子女的指针child[x]3) 左兄弟left[x]4) 右兄弟right[
2012-05-24 14:07:30
1335
转载 二项堆
. 二项堆数据结构简介一颗二项堆是由一组二项树组成,在给出二项堆的定义之前,首先我们来定义什么是二项树。二项树是一种递归的定义:1. 二项树B[0]仅仅包含一个节点2. B[k]是由两棵B[k-1]二项树组成,其中一颗树是另外一颗树的子树。下面是B0 - B4二项树: 显然二项树具有如下的性质:1. 对于树B[k]该树含有2^
2012-05-24 10:54:42
564
原创 各种排序
都是准备找工作的时候写的,放了这,可以随时来复习。头文件:#ifndef SORT_H_INCLUDED#define SORT_H_INCLUDED/*insertion sorting*/void InsertionSort(vector& vec);void BinaryInsert(vector& vec);//binary insertiongvoid ShellS
2012-05-23 20:21:44
418
转载 并查集
并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。常常在使用中以森林来表示。主要操作合并两个不相交集合需要注意的是,一开始我们假设元素都是分别属于一个独立的集合里的。操作很简单:先设置一个数组Father[x],表示x的“父亲”的编号。 那么,合并两个不相交集合的方法就是,找到其中一个集合最父亲的父亲(也就是最久远
2012-05-23 17:35:06
342
转载 后缀数组
在字符串处理当中,后缀树和后缀数组都是非常有力的工具,其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料。其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多功能而时间复杂度也不太逊色,并且,它比后缀树所占用的空间小很多。可以说,在信息学竞赛中后缀数组比后缀树要更为实用。因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法,以及配合后缀数组的最长公共
2012-05-23 15:07:31
335
转载 KMP算法深度解析
摘要:KMP算法是字符串匹配的经典算法,由于其O(m+n)的时间复杂度,至今仍被广泛应用。大道至简,KMP算法非常简洁,然而,其内部却蕴含着玄妙的理论,以至许多人知其然而不知其所以然。本文旨在解开KMP算法的内部玄妙所在,希望能够有助于学习与理解。 1、KMP算法 一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此称之为
2012-05-23 11:51:11
376
转载 trie树
本文讨论一棵最简单的trie树,基于英文26个字母组成的字符串,讨论插入字符串、判断前缀是否存在、查找字符串等基本操作;至于trie树的删除单个节点实在是少见,故在此不做详解。Trie原理Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。Trie性质好多人说trie的根节点不包含任何字符信息,我所习惯的trie根节
2012-05-22 17:19:27
457
转载 倒排索引
简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 用途 倒排文件(倒排索引),索引对象是文档或者文档集
2012-05-22 16:05:46
632
原创 R中的矩阵运算-三角分解
基本概念(三角分解相关):在数学中的矩阵论里,置换矩阵是一种系数只由0和1组成的方块矩阵。置换矩阵的每一行和每一列都恰好有一个1,其余的系数都是0。在线性代数中,每个n阶的置换矩阵都代表了一个对n个元素(n维空间的基)的置换。当一个矩阵乘上一个置换矩阵时,所得到的是原来矩阵的横行(置换矩阵在左)或纵列(置换矩阵在右)经过置换后得到的矩阵。设A是一个方块矩阵。A的LU分解是将它分解成
2012-05-09 13:20:23
4732
原创 R中的矩阵运算-基本运算
1 创建一个向量在R中可以用函数c()来创建一个向量,例如:> x=c(1,2,3,4)> x[1] 1 2 3 42 创建一个矩阵在R中可以用函数matrix()来创建一个矩阵,应用该函数时需要输入必要的参数值。> args(matrix)function (data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimname
2012-04-26 11:23:40
11529
转载 B树
B树具体讲解之前,有一点,再次强调下:B-树,即为B树。因为B树的原英文名称为B-tree,而国内很多人喜欢把B-tree译作B-树,其实,这是个非常不好的直译,很容易让人产生误解。如人们可能会以为B-树是一种树,而B树又是一种一种树。而事实上是,B-tree就是指的B树。特此说明。我们知道,B 树是为了磁盘或其它存储设备而设计的一种多叉(下面你会看到,相对于二叉,B树每个内结点有多个分支
2012-04-17 15:53:46
14166
1
原创 GDB常用调试命令
调用gdb编译需要在cc后面加 -g参数再加-o;[root@redhat home]#gdb 调试文件:启动gdb(gdb) l :(字母l)从第一行开始列出源码(gdb) break n :在第n行处设置断点(gdb) break func:在函数func()的入口处设置断点(gdb) info break: 查看断点信息(gdb) r:运行程序
2012-04-17 13:48:05
548
logistic回归模型
2011-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人