some_321-优快云博客

《京华烟云》有感——正中红心，不偏不倚

看完京华烟云小说后，忍不住写这个感受时，眼泪不由自主地流。姚木兰同父亲一样，最终得道。父亲是远离群众，一个人打坐沉思得道，而木兰最终为了国家存亡，为了民族的延续，深入群众，得到解脱，失去自我。个人的命运紧紧地同国家存亡息息相关。为什么就这样结尾了，让我觉得胸闷气短，眼睛始终湿润。可以说，林语堂从小说开始给我设了一个套，通过姚木兰的精神面貌的改变，...

2014-12-31 14:42:50 297

原创 Metaq服务器端的配置说明server.ini

注：从metaq官网copy下来，便于查看；地址：https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86配置管理Web管理平台从1.4.5开始，MetaQ提供了一个Web管理平台，默认运行在8120端口，你可以通过浏览器访问http://...

2014-04-04 11:03:29 596

Storm的可靠性与Ack机制

Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理，但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析，可靠性要求不是很高，则可以选择使用不可靠的Bolts。 Storm编程中，有各种Bolt，命名格式XXRichBolt或XXBasicBolt。其中，带有Rich的Bolt，是没有可靠性机制的，需要自己手动调用方法collec...

2014-04-01 17:06:01 274

Storm on yarn安装步骤

参考：[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.youkuaiyun.com/jiushuai/article/details/187293671. 已有的环境 a. 安装有HDFS文件系统b. 安装有YARN，且YARN服务已经开启c. ...

2014-02-14 15:02:34 258

计算字符串相似度【转载】

---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html----------------　在“文本比较算法Ⅰ——LD算法”中，介绍了编辑距离的计算。　　在“文本比较算法Ⅱ——Needleman/Wunsch算法”中，介绍了最长公共子串的计算。　　在给定的字符串A和字符串B，LD(A...

2013-11-15 16:33:09 234

原创字符串相似度匹配算法【转载】

原文链接：http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html 文章大致内容：1，计算两个字符串的Levenshtein距离。 Levenshtein距离：又叫做编辑距离，指两个字符串A和B中，A到B（或者B到A）的转变至少需要编辑的次数。编辑操作包括：添加、删除、替换。2，计...

2013-09-26 17:21:54 598

《Hadoop权威指南》——第七章MapReduce的类型与格式

输入类FileInputFormatFileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。1,1基本的输入通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。1,2有选择的输入如果需要排除特定文件，可以使用setInputPathFilter()方法设置一个过滤器。注：FileInpu...

2013-09-18 14:37:21 212

原创 MapReduce，组合式，迭代式，链式（转载）

MapReduce，组合式，迭代式，链式前面介绍一些怎样用户类制定自己的类，来达到减少中间数据：http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成，需要多次mapreduce才能完成任务，例如Pagrank，...

2013-07-23 10:08:01 150

mahout之Kmeans使用及结果分析

Mahout-Kmeans1，两个输入路径：一个是数据的点；一个是初始集群。点的输入文件是SequenceFile(Key, VectorWritable)格式；而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy)2，每次迭代会产生一个输出目录“cluster-N”，输出文件格式为SequenceFile(T...

2013-07-12 19:32:54 543

Oozie的JavaAction使用

1编写自定义功能的main函数功能：得到指定目录的信息（该目录下文件个数、该目录的修改时间），并将信息反馈给oozie。代码如下：package myTest.oozie; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.ap...

2013-07-08 21:11:06 680

Hive环境搭建

Hive1.安装（1）安装要求：Java1.6；Hadoop0.20.x（2）安装步骤l 解压$ tar -xzvf hive-x.y.z.tar.gzl 环境变量HIVE_HOME，PATH，JAVA_HOME,HADOOP_HOME$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}$ export PATH=$H...

2013-07-05 10:35:36 136

hadoop环境搭建

背景：三台机器，一个主机名为master，另外两个是slave1和slave2。将master作为jobtracker和namenode 1，在所有机器上新建用户 useradd hh -g hadoop 2，配置ssh（免密码登陆） // 在master端生成秘钥ssh-keygen//查看秘钥cd .ssh/cat...

2013-06-14 14:16:08 119

Oozie相关函数

EL:Expression Languagehttp://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_ConstantsOozie相关函数1.Decision Node1.1 switch casedefault一定要设置。Example：<workf...

2013-05-17 14:34:37 291

通过HadoopAPI获取task日志内容

在集群中查看Task日志的方法，一般有两个：1，通过Hadoop提供的WebConsole，直接在页面中追踪查看；2，到集群中运行该task的节点上，查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件，分别是syslog，stdout，stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法，需要追踪...

2013-05-16 11:30:38 557

MR实现将同一个key的内容分配到同一个输出文件

MapReduce程序默认的输出文件个数：首先，根据setNumReduceTasks(int num)这个方法，其次，根据Map的输出文件个数。一般情况下，同一个key的数据，可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历，则需要将包含该key的所有文件作为输入文件。当数据比较庞大时，这样的操作会浪费资源。如果同一个Key的所有的value...

2013-05-15 18:17:08 549

MapReduce实现二次排序及GroupingComparator的误区

之前在网上看到了一篇使用MapReduce实现二次排序的博客，自己尝试实现了，并测试成功，代码有所改动。链接如下：http://blog.youkuaiyun.com/zyj8170/article/details/7530728 所谓的二次排序：对Key和Val都进行排序（比如升序），并输出。对Key的自动排序，MapReduce可以替我们解决，但是同时对Val进行排序，则需要其他的做法。...

2013-04-17 11:51:48 428

Mysql去空值

在Mysql中，字段的空值包含两种不同的含义：1，字段值为null；2，字段值为空字符串去除空值的方法：create table 表B select 列1，列2，IFNULL(列3，'I am NULL') as 列3，IFNULL(列4，-999) as 列4...from 表A；解释：将表A中，若列3为NULL，则替换成字符串‘I am NULL’...

2013-04-15 13:31:33 3748

Music, come on!

My love(R&B)Num SongSinger1Ring My BellsEnrique Iglesias2Call You Tonight OceanJohnta Austin3Melt The SnowShayne Ward4The Saltwater RoomOwl City&Brean...

2013-04-07 19:04:08 224

MapReduce定制Writable类型

一、《Hadoop权威指南》一书中的示例，测试了一下。定制的Writable类型：TextPair功能：存储一对Text对象。代码如下：package testWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;import java.i...

2013-04-07 17:01:07 226

原创 MapReduce程序-tips

1，Configuration配置文件只有在main或者是run方法中设置才有效；在map或reduce中只能通过context.getConf()方法获取该Job的配置文件，从而读取常量值。注：千万不能在map或reduce中修改configuration，虽然不报错，但这样是改不了值的补充：类的静态常量与Configuration设置常量的功能是一样的，但前者只能保留...

2013-03-19 16:28:25 109

FM、MF、SVD

SVD（Singular value decomposition）：奇异值分解，矩阵分解的算法之一。在数据分析中的输入矩阵A一般是非奇异矩阵，而使用SVD可将A分解成一个对角阵B，形式如下：A = P B Q这里的B是不带有隐特征的，但由于SVD计算量太大，一般都用MF模型MF（Matrix Factorization）：也是一种矩阵分解。形式如下：A = （P的转置...

2013-03-08 14:57:11 762

原创数据库相关题目

题1，如何删除掉一张表重复记录？--创建一个没有指定主键的表，因此可以有多个重复记录；create table cat(catId int,catName varchar(30))--插入多个重复记录insert into cat values(1,'aa') --执行多次insert into cat values(2,'bb') --执行多次--使用disti...

2013-02-26 12:00:57 138

原创数据库基本语法（SqlServer，MySql）

数据库简单语句：注释（开头--） 1》创建库create database LiangshanHeros 表和列的命名规则（SqlServer 2000）：必须以字母，下划线，或者汉字开头（最好是以字母开头）；长度不能超过128个字符；不能使用系统保留字；只能使用如下字符A-Z，a-z，0-9，$，#，_等； 2》使用数据库use Liangsh...

2013-02-26 11:43:50 229

原创获取MySql表结构

import java.sql.*;public class testMySql { public static void main(String[] args) { String driver = "com.mysql.jdbc.Driver"; String userName = "cloud"; String userPasswd = "bigbig";...

2012-11-29 21:34:27 203

Java中Split方法和Scanner类

Split函数和Scanner类都可以使用正则表达式实现字符串分割。例如从命令行接受一行字符串如： 1 2（注意1前面有多个空格，1与2之间有多个空格） Split：[code="java"] InputStreamReader isr=new InputStreamReader(System.in); BufferedReader br=new...

2012-11-13 23:21:03 889

some_321的专栏