- 博客(25)
- 资源 (2)
- 收藏
- 关注
《京华烟云》有感——正中红心,不偏不倚
看完京华烟云小说后,忍不住写这个感受时,眼泪不由自主地流。姚木兰同父亲一样,最终得道。父亲是远离群众,一个人打坐沉思得道,而木兰最终为了国家存亡,为了民族的延续,深入群众,得到解脱,失去自我。个人的命运紧紧地同国家存亡息息相关。 为什么就这样结尾了,让我觉得胸闷气短,眼睛始终湿润。 可以说,林语堂从小说开始给我设了一个套,通过姚木兰的精神面貌的改变,...
2014-12-31 14:42:50
233
原创 Metaq服务器端的配置说明server.ini
注:从metaq官网copy下来,便于查看;地址:https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86配置管理Web管理平台从1.4.5开始,MetaQ提供了一个Web管理平台,默认运行在8120端口,你可以通过浏览器访问http://...
2014-04-04 11:03:29
547
Storm的可靠性与Ack机制
Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理,但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析,可靠性要求不是很高,则可以选择使用不可靠的Bolts。 Storm编程中,有各种Bolt,命名格式XXRichBolt或XXBasicBolt。其中,带有Rich的Bolt,是没有可靠性机制的,需要自己手动调用方法collec...
2014-04-01 17:06:01
245
Storm on yarn安装步骤
参考:[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.youkuaiyun.com/jiushuai/article/details/187293671. 已有的环境 a. 安装有HDFS文件系统b. 安装有YARN,且YARN服务已经开启c. ...
2014-02-14 15:02:34
217
计算字符串相似度【转载】
---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html---------------- 在“文本比较算法Ⅰ——LD算法”中,介绍了编辑距离的计算。 在“文本比较算法Ⅱ——Needleman/Wunsch算法”中,介绍了最长公共子串的计算。 在给定的字符串A和字符串B,LD(A...
2013-11-15 16:33:09
204
原创 字符串相似度匹配算法【转载】
原文链接:http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html 文章大致内容:1,计算两个字符串的Levenshtein距离。 Levenshtein距离:又叫做编辑距离,指两个字符串A和B中,A到B(或者B到A)的转变至少需要编辑的次 数。编辑操作包括:添加、删除、替换。2,计...
2013-09-26 17:21:54
571
《Hadoop权威指南》——第七章MapReduce的类型与格式
输入类FileInputFormatFileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。1,1基本的输入通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。1,2有选择的输入如果需要排除特定文件,可以使用setInputPathFilter()方法设置一个过滤器。注:FileInpu...
2013-09-18 14:37:21
184
原创 MapReduce,组合式,迭代式,链式(转载)
MapReduce,组合式,迭代式,链式 前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,...
2013-07-23 10:08:01
123
mahout之Kmeans使用及结果分析
Mahout-Kmeans1,两个输入路径:一个是数据的点;一个是初始集群。 点的输入文件是SequenceFile(Key, VectorWritable)格式; 而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy)2,每次迭代会产生一个输出目录“cluster-N”,输出文件格式为SequenceFile(T...
2013-07-12 19:32:54
504
Oozie的JavaAction使用
1编写自定义功能的main函数功能:得到指定目录的信息(该目录下文件个数、该目录的修改时间),并将信息反馈给oozie。代码如下:package myTest.oozie; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.ap...
2013-07-08 21:11:06
657
Hive环境搭建
Hive1.安装(1)安装要求:Java1.6;Hadoop0.20.x(2)安装步骤l 解压$ tar -xzvf hive-x.y.z.tar.gzl 环境变量HIVE_HOME,PATH,JAVA_HOME,HADOOP_HOME$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}$ export PATH=$H...
2013-07-05 10:35:36
106
hadoop环境搭建
背景:三台机器,一个主机名为master,另外两个是slave1和slave2。 将master作为jobtracker和namenode 1,在所有机器上新建用户 useradd hh -g hadoop 2,配置ssh(免密码登陆) // 在master端生成秘钥ssh-keygen//查看秘钥cd .ssh/cat...
2013-06-14 14:16:08
98
Oozie相关函数
EL:Expression Languagehttp://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_ConstantsOozie相关函数1.Decision Node1.1 switch casedefault一定要设置。Example:<workf...
2013-05-17 14:34:37
268
通过HadoopAPI获取task日志内容
在集群中查看Task日志的方法,一般有两个:1,通过Hadoop提供的WebConsole,直接在页面中追踪查看;2,到集群中运行该task的节点上,查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件,分别是syslog,stdout,stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法,需要追踪...
2013-05-16 11:30:38
518
MR实现将同一个key的内容分配到同一个输出文件
MapReduce程序默认的输出文件个数:首先,根据setNumReduceTasks(int num)这个方法,其次,根据Map的输出文件个数。一般情况下,同一个key的数据,可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历,则需要将包含该key的所有文件作为输入文件。当数据比较庞大时,这样的操作会浪费资源。如果同一个Key的所有的value...
2013-05-15 18:17:08
524
MapReduce实现二次排序及GroupingComparator的误区
之前在网上看到了一篇使用MapReduce实现二次排序的博客,自己尝试实现了,并测试成功,代码有所改动。链接如下:http://blog.youkuaiyun.com/zyj8170/article/details/7530728 所谓的二次排序:对Key和Val都进行排序(比如升序),并输出。对Key的自动排序,MapReduce可以替我们解决,但是同时对Val进行排序,则需要其他的做法。...
2013-04-17 11:51:48
392
Mysql去空值
在Mysql中,字段的空值包含两种不同的含义:1,字段值为null;2,字段值为空字符串 去除空值的方法:create table 表B select 列1,列2,IFNULL(列3,'I am NULL') as 列3,IFNULL(列4,-999) as 列4...from 表A; 解释:将表A中,若列3为NULL,则替换成字符串‘I am NULL’...
2013-04-15 13:31:33
3678
Music, come on!
My love(R&B)Num SongSinger1Ring My BellsEnrique Iglesias2Call You Tonight OceanJohnta Austin3Melt The SnowShayne Ward4The Saltwater RoomOwl City&Brean...
2013-04-07 19:04:08
194
MapReduce定制Writable类型
一、《Hadoop权威指南》一书中的示例,测试了一下。定制的Writable类型:TextPair功能:存储一对Text对象。代码如下:package testWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;import java.i...
2013-04-07 17:01:07
194
原创 MapReduce程序-tips
1,Configuration配置文件只有在main或者是run方法中设置才有效; 在map或reduce中只能通过context.getConf()方法获取该Job的配置文件,从而读取常量值。注:千万不能在map或reduce中修改configuration,虽然不报错,但这样是改不了值的补充:类的静态常量与Configuration设置常量的功能是一样的,但前者只能保留...
2013-03-19 16:28:25
90
FM、MF、SVD
SVD(Singular value decomposition):奇异值分解,矩阵分解的算法之一。在数据分析中的输入矩阵A一般是非奇异矩阵,而使用SVD可将A分解成一个对角阵B,形式如下:A = P B Q这里的B是不带有隐特征的,但由于SVD计算量太大,一般都用MF模型MF(Matrix Factorization):也是一种矩阵分解。形式如下:A = (P的转置...
2013-03-08 14:57:11
730
原创 数据库相关题目
题1,如何删除掉一张表重复记录?--创建一个没有指定主键的表,因此可以有多个重复记录;create table cat(catId int,catName varchar(30))--插入多个重复记录insert into cat values(1,'aa') --执行多次insert into cat values(2,'bb') --执行多次--使用disti...
2013-02-26 12:00:57
121
原创 数据库基本语法(SqlServer,MySql)
数据库简单语句:注释(开头--) 1》创建库create database LiangshanHeros 表和列的命名规则(SqlServer 2000):必须以字母,下划线,或者汉字开头(最好是以字母开头);长度不能超过128个字符;不能使用系统保留字;只能使用如下字符A-Z,a-z,0-9,$,#,_等; 2》使用数据库use Liangsh...
2013-02-26 11:43:50
179
原创 获取MySql表结构
import java.sql.*;public class testMySql { public static void main(String[] args) { String driver = "com.mysql.jdbc.Driver"; String userName = "cloud"; String userPasswd = "bigbig";...
2012-11-29 21:34:27
168
Java中Split方法和Scanner类
Split函数和Scanner类都可以使用正则表达式实现字符串分割。例如从命令行接受一行字符串如: 1 2(注意1前面有多个空格,1与2之间有多个空格) Split:[code="java"] InputStreamReader isr=new InputStreamReader(System.in); BufferedReader br=new...
2012-11-13 23:21:03
838
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人