- 博客(221)
- 资源 (2)
- 收藏
- 关注
原创 Map.Entry
Map是java中的接口,Map.Entry是Map的一个内部接口。Map提供了一些常用方法,如keySet()、entrySet()等方法。keySet()方法返回值是Map中key值的集合;entrySet()的返回值也是返回一个Set集合,此集合的类型为Map.Entry。Map.Entry是Map声明的一个内部接口,此接口为泛型,定义为Entry。它表示Map中的一
2015-05-11 17:38:43
709
原创 Double Array Trie
Trie结构是模式匹配中经常用到的经典结构,在字符串处理中发挥着重要的作用,比如分词算法,就会利用Trie结构将分句的已知词条先识别出来,然后再判断剩下的未识别部分是否是新的未知词。经典的Trie结构如下图所示,是一个典型的多叉树结构,为了保证用Trie结构进行模式匹配的效率,Trie结构的每一个节点往往会容纳输入字符集的所有字母构成的数组,以便实现高速查找,这样的缺点
2015-02-11 14:13:48
355
原创 Hive函数
条件函数返回类型函数说明Tif(boolean testCondition, T valueTrue, T valueFalseorNull)判断是否满足条件,满足返回第一个值,否则返回另外一个值Tcoalesce(T v1, T v2, ...)返回一组数据中,第一个不为null的值,如果都为null,则返回null
2014-08-01 11:47:36
1008
原创 Redis的日志系统
什么是 SLOWLOGSlow log 是 Redis 用来记录查询执行时间的日志系统。查询执行时间指的是不包括像客户端响应(talking)、发送回复等 IO 操作,而单单是执行一个查询命令所耗费的时间。另外,slow log 保存在内存里面,读写速度非常快,因此你可以放心地使用它,不必担心因为开启 slow log 而损害 Redis 的速度。设
2014-07-30 20:09:54
1668
原创 Cheetah使用出错!You don't have the C version of NameMapper installed!
1.错误/usr/lib/python2.5/site-packages/Cheetah/Compiler.py:1532: UserWarning: You don't have the C version of NameMapper installed! I'm disabling Cheetah's useStackFrames option as it is painfully s
2014-07-30 16:06:02
6791
原创 Hive的日期函数
1.unix时间戳转时间函数语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,‘yyyyMMdd’) from
2014-07-29 16:09:49
1014
原创 使用python向Redis批量导入数据
1.使用pipeline进行批量导入数据class Redis_Handler(Handler): def connect(self): #print self.host,self.port,self.table self.conn = Connection(self.host,self.port,self.table) def execute(self, acti
2014-07-29 10:21:00
3657
原创 Python内建函数str()和repr()
内建函数str()和repr() (representation,表达,表示)或反引号操作符(``)可以方便地以字符串的方式获取对象的内容、类型、数值属性等信息。str()函数得到的字符串可读性好(故被print调用),而repr()函数得到的字符串通常可以用来重新获得该对象,通常情况下 obj==eval(repr(obj)) 这个等式是成立的。这两个函数接受一个对象作为其参数,返回适当的字符串
2014-07-25 19:33:12
1130
原创 Hive命令行
Hive 命令行Hive 命令行示例•从命令行执行指定的sql语句•$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'•以指定的hive环境变量执行指定的sql语句•$HIVE_HOME/bin/hive -e 'select a.col from tab1 a' -hiveconf hive.exec.scr
2014-07-24 20:47:04
1146
原创 hive的udf的编写
1.配置环境1.引入jar包:hive-exec-0.8.0.jar 和 hadoop-core-0.20.2.jar2.编写udf函数1.extends UDF2.重新定义UDF的evaluate函数。package com.qunar.hiveudf;import java.text.SimpleDateFormat;import java.util.Calen
2014-07-23 20:05:47
1085
转载 Hive数据导入和导出
1/hive数据导出 很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid,nam
2014-07-22 13:19:59
629
原创 java的多线程
1.简介并发编程使我们可以讲程序划分为多个分离的、独立运行的任务。通过使用多线程机制,这些独立任务中的每一个都将由执行线程来驱动。在使用线程时,CPU将轮流给每个任务分配其占有时间。2.定义任务线程可以驱动任务,因此需要一种描述任务的方式,这可以有Runnable接口来提供。要想定义任务,只需要实现Runnable接口并编写run()方法,使得该任务可以执行你的命令。
2014-07-16 20:58:48
172
原创 sed命令
1.d命令命令d用于删除输入性。sed先将输入行从文件赋值到模式空间里,然后对该行执行sed命令,最后将模式空间里的内容显示在屏幕上。如果发出的是命令d,当前模式空间里的输入会被删除,不被显示。sed '$d' datafile#删除最后一行,其余的都被显示sed '/my/d' datafile#删除包含my的行,其余的都被显示
2014-07-16 19:25:05
815
原创 xargs命令详解
xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具。它把一个数据流分割为一些足够小的块,以方便过滤器和命令进行处理。通常情况下,xargs从管道或者stdin中读取数据,但是它也能够从文件的输出中读取数据。xargs的默认命令是echo,这意味着通过管道传递给xargs的输入将会包含换行和空白,不过通过xargs的处理,换行和空白将被空格取代。1.选项解释-0 当sdtin
2014-07-16 15:02:06
5381
原创 lua中的pairs和ipairs区别
pairsReturns three values: the next function, the table t, and nil, so that the construction for k,v in pairs(t) do body endwill iterate over all key–value pairs of table t.See functi
2014-07-14 15:56:53
850
转载 CentOS下安装word2vec的linux教程
关于google的word2vec项目,这里就不用介绍了,接下来需要很干货的分享给大伙,在CentOS下安装word2vec的linux教程。关于如何在各个linux操作系统上安装word2vec,google的word2vec项目首页并未过多讲,或是详细的描述安装的linux教程。word2vec项目的官网上,只有这么几段简短的关于使用的描述和linux教程:Quick
2014-07-08 12:07:25
2188
原创 cypher的函数
1.length函数2.coalesce函数返回第一个字符不为空的值coalesce(m.Rank_Score?,1) 如果Rank_Score为真,则返回Rank_Score的值,否则返回1。
2014-06-11 14:12:07
411
原创 linux的tail命令
1.tail -f 文件名如果输入文件是常规文件或如果File 参数指定FIFO(先进先出),那么tail 命令不会在复制了输入文件的最后的指定单元后终止,而是继续从输入文件读取和复制额外的单元(当这些单元可用时)。如果没有指定File 参数,并且标准输入是管道,则会忽略-f 标志。tail -f 命令可用于监视另一个进程正在写入的文件的增长。
2014-06-06 12:06:43
182
原创 awk使用的实例
1.使用split函数name.url的内容:上海 http://trip.elong.com/shanghai/jingdian elong destination云南 http://trip.elong.com/yunnan/jingdian elong destination内蒙古 http://trip.elong.com/neimenggu/ji
2014-05-30 16:48:51
1003
原创 awk常用字符串处理函数
gsub(regexp, replacement [, target])Search target for all of the longest, leftmost, nonoverlapping matching substrings it can find and replace them with replacement. The ‘g’ in gsub() stands for “
2014-05-26 15:03:15
1715
原创 svn添加新的目录
方法一:1.在远程服务器上生成新的目录svn mkdir http://svn.xxx.com/svn/mobile/strategy/assistant/branches/talk -m "talking system"svn co http://svn.corp.qunar.com/svn/mobile/strategy/assistant/branches/talk talk
2014-05-13 19:14:09
3790
转载 Jena 语义网应用Java编程框架
Jena是一套开发语义网应用的Java API。包括了对RDF,RDFS,OWL描述的ONTOLOGY模型的解析,创建,串行化等。SPARQL语句的解析,转化为SQL以及基于规则的推理引擎。Jena提供了读取,创建,输出模型的Java API。其主要的数据结构是图Graph,但是用户的操作主要还是在Model上进行。基本的方法是ModelFactory建立模型,model.Crea
2014-05-07 17:50:30
1050
原创 xpath语法
XPath 语法XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。XML 实例文档我们将在下面的例子中使用这个 XML 文档。 Harry Potter 29.99 Learning XML 39.95XPath 使用路
2014-04-29 19:33:26
669
原创 linux 查看文件夹下的文件个数
ls -l | grep '^-'| wc -lls -l | grep -c '^-'ls -l 长列表输出该目录下文件信息(注意这里的文件,不同于一般的文件,可能是目录、链接、设备文件等) grep ^- 这里将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是 ^d。-c命令可以直接计算过滤部分的个数。wc -l 统计输出信息的行数,因为已经过滤得只剩一般文件了,
2014-04-24 15:56:18
1091
原创 Python内置的字符串处理函数整理
收集常用的Python 内置的各种字符串处理 函数的使用方法str='python String function'生成字符串变量str='python String function' 字符串长度获取:len(str)例:print '%s length=%d' % (str,len(str)) 字母处理全部大写:str.upper()全部小写:str.low
2014-04-16 19:38:49
666
转载 Python中urllib.urlencode的时候出错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0
1.之前已经遇到类似问题,并且搞定过了:【已解决】Python字符串处理出现错误:UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe6 in position 0: ordinal not in range(128)结果此处又遇到这类问题。真是被python中的编码问题搞得无语了。2.看了下现象,貌似又是传入的
2014-04-16 15:55:33
1613
原创 Python解析json对象
更多的信息,可以参考python内部的json文档:python>>> help(json)或者官方文档:http://docs.python.org/library/json.html#module-json.下面给出一个使用python解析json的简单例子:#!/usr/bin/pythonimport json#Function:Analyze json scrip
2014-04-16 13:47:21
983
原创 在JS中解析HTML字符串
在js中直接添加html语句,js会将html字符串解析成相应的HTML语句,并在前端进行显示。var el = document.createElement( 'div' );el.innerHTML = "titleTesttest01test02test03";el.getElementsByTagName( 'a' ); // Live NodeList of your ancho
2014-04-16 13:38:54
4582
转载 python用httplib模块发送get和post请求
在python中,模拟http客户端发送get和post请求,主要用httplib模块的功能。1、python发送GET请求我在本地建立一个测试环境,test.php的内容就是输出一句话:1echo 'Old friends and old wines are best.';python发送get请求代码:
2014-04-15 17:30:40
763
1
原创 xshell登录linux中文编码设置
输入: locale输出 : LANG=zh_CN.UTF-8LC_CTYPE="zh_CN.UTF-8"LC_NUMERIC="zh_CN.UTF-8"LC_TIME="zh_CN.UTF-8"LC_COLLATE="zh_CN.UTF-8"LC_MONETARY="zh_CN.UTF-8"LC_MESSAGES="zh_CN.UTF-8"LC_PAPER="z
2014-04-15 11:40:12
1049
转载 js控制div及网页相关属性的代码
动态创建DIV:var div = document.createElement("div"); 设置div属性及样式等: div.title="this is a new div."; div.class = "newDivClass"; div.innerHTML = "Test create a div element!"; div.style.styleFloat=
2014-04-11 17:16:02
759
原创 Kmeans算法
Kmeans算法k-means 算法接受参数 k;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点
2014-03-21 15:32:20
1554
原创 二叉树的序列化
1. 保存这棵二叉树的先序和中序遍历,这样就可以重构出来了; 2. 保存二叉树的先序遍历并且包括所有的NULL,这样也可以重构出来; 3. 把这棵树填满成完全二叉树,不存在的结点用特殊的值表示,按层序列化,每层从左到右,重构的时候忽略不存在的结点; 4. 类似于方法2,把每一个结点同它在完全二叉树中的序号一同保存(按层排序,每层 从左到右排序),一样可以重构出来。
2014-03-21 15:18:42
471
转载 推荐系统中所使用的混合技术介绍
文/陈运文在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷的渠道,而解决这两类矛
2014-03-19 11:22:24
1138
转载 智能推荐系统开发中的十个关键注意点
作者:陈运文 博士,盛大智能推荐团队负责人亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的研究与应用中,很多优秀的方法被提出,很
2014-03-19 10:37:12
984
转载 虚函数与虚继承寻踪
顶多算得上对数据的简单封装,而C++的引入把struct“升级”为class,使得面向对象的概念更加强大。继承机制解决了对象复用的问题,然而多重继承又会产生成员冲突的问题,虚继承在我看来更像是一种“不得已”的解决方案。多态让对象具有了运行时特性,并且它是软件设计复用的本质,虚函数的出现为多态性质提供了实现手段。如果说C语言的struct相当于对数据成员简单的排列(可能有对齐问题),那么C++的
2014-03-19 09:44:07
540
基于.NET平台C#开发实现的AOP日历管理系统
2011-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人