- 博客(40)
- 资源 (2)
- 收藏
- 关注
转载 ubuntu apache2配置(转载)
转载地址:http://hi.baidu.com/jiayancheng1/blog/item/08be59247704723ed40742bf.htmlubuntu apache2配置(转载)原帖地址1.apache2.conf 是主配置文件,httpd.conf 用户配置文件2.虚拟目录在 httpd.conf 中DocumentRoot “路径”ServerNam
2012-06-05 14:27:07
1086
转载 Java产生随机数
转自:http://tech.ddvip.com/2007-07/118589649730592.html在java中,我们可以通过两种方式来获取随机数(generating a random number)一种是大家熟悉的java.lang.Math.Random()静态方法,另一种是创建java.util.Random对象。下面是两种方法的使用过程: 一.java.lang.Ma
2012-05-26 13:13:45
661
转载 Hadoop 全局变量与数据传递
首先明确: 1.Hadoop不支持全局变量,也不建议使用全局变量。 我的理解是,这是因为hadoop具有map类和reducer类,并且不同的task一般执行的是不同的map或reduce。所以全局变量是无法传递的。(但是一般情况下,我们也许会需要一个对于所有map和reduce都能访问的全局变量),暂时我知道的解决方法如下:2.如果Mapper类和Reducer类都是主类的内
2012-05-25 19:53:50
9213
转载 ubuntu下安装Apache+PHP+Mysql
转载自:http://www.cnblogs.com/lynch_world/archive/2012/01/06/2314717.html更详细的图文参考链接:http://hi.baidu.com/asfsz/blog/item/7a40c20461d873ed7b8947d5.html 电影《社交网络》中,facebook创始人马克.扎克失恋后入侵哈佛大学宿舍楼服务器,窃取数据库
2012-05-20 15:37:24
872
转载 Hadoop DistributedCache
1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的节点上,
2012-05-15 16:32:31
4248
转载 Haloop介绍
Haloop用户手册:http://code.google.com/p/haloop/wiki/UserManual 1.介绍Haloop是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。递归的连接可能在map端(K-means),也可能在reduce端(PageRank)。
2012-05-15 16:31:49
5110
转载 迭代式mapreduce
董的博客:《迭代式mapreduce框架介绍》网址:http://dongxicheng.org/mapreduce/iterative-mapreduce-intro/小e的分享:《迭代式MapReduce解决方案》:http://www.wikieno.com/2012/02/iterative-mapred-summary-haloop/1.概述 对于传统的MapReduce框
2012-05-15 15:06:36
2860
原创 模体发现问题
1.模体发现问题 DNA或蛋白质中具有特定功能且保守的序列片段称为 模体(也是结合位点)。 由于突变存在,不一定完全保守, 故 实际片段 称为 模体实例。 这里研究自动模体发现问题:从一组相关的DNA序列集合中将模体和每个序列中的模体实例找出。2.问题描述 给定一组含有t条DNA序列的集合S={sl,s2, …,st},每序列的长度为n,每条序列s
2012-05-07 17:53:38
4071
转载 hadoop上的pageRank算法
简单的pageRank实现参考:http://wlh0706-163-com.iteye.com/blog/1397694较为复杂的PR值计算以及在hadoop上的实现:http://deathspeeder.is-programmer.com/posts/31349.htmlpageRank算法的基本思想是:网页的热门程度依赖指向它的网页的热门程度。也许google当初的Page
2012-05-05 13:14:46
1650
原创 我的积累
<!--@page {margin:2cm}h1 {margin-top:0.6cm; margin-bottom:0.58cm; line-height:240%; page-break-inside:avoid}h1.western {font-family:"Liberation Serif",serif; font-size:12pt}h1.cj
2012-05-02 22:04:26
785
转载 Linux相关网络命令
手动临时设置IPsudo ifconfig eth0 up 192.168.1.10手动设置IP一般在系统重启后就失效静态设置IPUbuntu网络配置信息保存在 /etc/network/interfaces 文件中,默认内容如下:auto eth0iface eth0 inet dhcpauto loifac
2012-05-01 09:42:56
522
转载 哈希存储
哈希简单的说就是一种映射,它将很大定义域的值映射到一个相对较小的值域内。 通常用Hash是为了便于判断一个元素是否属于某集合。所以它支持创建Hash表时的INSERT操作,判断是否存在查找时的SEARCH操作,以及删除元素DELETE操作。 如果你的集合元素个数与全集元素个数差不多,还是用数组吧。Hash一般将大集合映射到小集合中,所以会有碰撞(Collision),这时,可
2012-04-26 21:19:12
762
转载 热门智力题 过桥问题和倒水问题
原文地址:http://blog.youkuaiyun.com/morewindows/article/details/7481851
2012-04-24 20:55:15
572
原创 MapReduce中文件的压缩和解压
1.单个文件的压缩或解压import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import org.apache.hadoop.conf.Confi
2012-04-23 21:27:49
3381
原创 hadoop 文件合并
众所周知,Hadoop对处理单个大文件比处理多个小文件更有效率,另外单个文件也非常占用HDFS的存储空间。所以往往要将其合并起来。1,getmergehadoop有一个命令行工具getmerge,用于将一组HDFS上的文件复制到本地计算机以前进行合并参考:http://hadoop.apache.org/common/docs/r0.19.2/cn/hdfs_shell.html
2012-04-23 17:07:03
12425
原创 hadoop遇到的问题
装好hadoop,但是一直出现问题,总结如下:排错到现在,最大的感觉是,也许你的错误表象跟网上说的一样,但是解决方法会大有不同,只能说这种错误是同一问题(如namenode出错)导致,但是究竟是什么行为导致这个问题,每个人也许都不相同,所以重点是找到自己的操作时的错误所在.1.Too many fetch-failures错误问题介绍:http://blog.youkuaiyun.com/
2012-04-20 02:02:07
1580
转载 Hadoop二次排序
文章转自:http://blog.youkuaiyun.com/heyutao007/article/details/5890103趁这个时候,顺便把hadoop的用于比较的Writable, WritableComparable, Comprator等搞清楚。。1.二次排序概念:首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 。如
2012-04-16 17:51:15
1129
转载 eclipse中 unable to load native-hadoop library
解决参考:http://blog.youkuaiyun.com/hongweigg/article/details/7203749我的过程是:1。在run configuration中 Arguments/VM arguments加上如下语句:2.如果不行可以在properities/java build path中添加:library/add external folder, 选
2012-04-15 22:31:04
2580
原创 gzip, gunzip ,tar命令
一、命令作用gzip:用于将文件进行压缩,在被压缩文件名后加上 .gz。gunzip:用于将后缀为 .gz的压缩文件解压,解压后后缀消失。tar:将一个带目录结构的文件系统归档为一个以 .tar结尾的独立文件,也可以反之将一个以 .tar结尾的文件恢复为一个目录结构。注意,后缀是人为加上去的,便于识别。二、简单使用方法对xxx.tar.gz的解压过程:运行: gun
2012-04-08 21:49:18
815
转载 JUnit: Hamcrest使用
转自:http://blog.youkuaiyun.com/androidbluetooth/article/details/6406208hamcrest是一款比较不错的JUnit测试jar包,本文介绍hamcrest在Java语言的使用。如果你使用过eclipse和JUnit4的话,hamcrest的使用会让你如虎添翼。 1. 下载hamcrest 连接Google,搜索h
2012-04-08 20:36:42
1014
翻译 JUnit教程
另一个常用的单元测试工具:Mockito链接:http://blog.youkuaiyun.com/onlyqi/article/details/6396646Mockito的API链接:http://mockito.googlecode.com/svn/branches/1.6/javadoc/org/mockito/Mockito.html以下教程文章来源:http://www.v
2012-04-08 20:06:56
1617
原创 使用java api操作HDFS文件
全部程序如下:import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.
2012-04-06 23:12:13
12717
原创 hadoop程序运行
hadoop命令的使用:Usage: hadoop [--config confdir] COMMAND 这里COMMAND为下列其中一个:namenode -format 格式化DFS文件系统 secondarynamenode 运行DFS的第二个namenode namenode 运行DFS的name
2012-04-06 10:53:58
1620
转载 观感默认设置相关文件swing.properties的设置问题
来源:http://blog.youkuaiyun.com/jerry_liu20080504/article/details/6091678 某些jdk中不存在swing.properties,根据java文档描述,如果不存在的话,就手动添加该文件到jre/lib的文件夹下。然后在该文件中添加以下内容:#swing.defaultlaf = javax.swing.plaf.metal.Meta
2012-04-05 12:10:47
1625
原创 eclipse文件
eclipse文件主要为三部分:src:存储源代码文件bin:存储编译后的.class字节码文件其他:存储资源文件(如输入输出文件,图片文件等)
2012-04-04 19:48:47
987
转载 JavaScript常用正则表达式
来自:http://feiqiang.iteye.com/blog/6958481、 短日期,形如 (2003-12-05) function strDateTime(str) { var r = str.match(/^(d)(-│/)(d)2(d)$/); if(r==null)return false; var d= new Date(r[1], r[3
2012-04-04 15:23:04
386
转载 vim配置
前辈经验:《构建真正的IDE环境》—http://www.cnblogs.com/CGDeveloper/articles/1941373.html《手把手教你把 Vim 改装成一个 IDE 编程环境》- 吴垠, 吴的blog:http://blog.youkuaiyun.com/wooin 《vim使用进阶: 使用vim提高你的文本编辑效率》-Easwy Yang,其bolg:http://ea
2012-04-01 17:20:20
503
转载 Hadoop0.20更新笔记
本节向大家介绍一下Hadoop0.20更新的内容,在学习Hadoop的过程中你可能会遇到这方面的问题,在这里和大家分享一下,相信通过本节的介绍大家对Hadoop0.20更新有一定的认识。下面是详细介绍。Hadoop0.20更新笔记最近学习hadoop0.20.1,网上找到一篇文章《What’sNewinHadoopCore0.20》,非完整的给翻译了一下,为以后检索方便,发上来保存一份。如
2012-03-30 21:20:27
512
原创 hadoop中联结不同来源数据
有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555
2012-03-29 23:46:52
1149
原创 public,protected,private问题
一直没扯清这几个访问限定符,这次用vs2010下用代码实验下,记录如下:class Base{public: Base(string book_a = " ", double price_a = 0.0): book(book_a), price(price_a) {}protected: double price;private: string book;}
2012-03-29 20:42:50
529
转载 i++,++i, i=i+1 vs编译器上的深入研究
今天看到一个有趣的输出,遂发现这篇文章:http://www.cnblogs.com/confide/archive/2012/03/08/2385739.html我自己的例子是int i = 10; cout 目测输出时 10 10 11 11;实际输出了 9 10 10 10 。使用flush发现也不是缓冲区的问题i++,++i, i=i+1 vs编译器上的深入研究
2012-03-29 20:09:58
844
转载 Bloom Filter概念,原理,代码。。
1. BloomFilter概念与原理:http://blog.youkuaiyun.com/jiaomeng/article/details/1495500 (从数学上分析了错误率,最优hash函数,位数组大小的选择) BloomFilter介绍:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html2. BloomFilt
2012-03-29 17:20:58
1138
原创 高阶MapReduce(1)-链接多个MapReduce作业
许多复杂的任务需要分解成简单任务,每个任务通过MapReduce作业来完成。Hadoop支持将多个MapReduce链接成更大得作业。1.顺序链接MapReduce作业类似于Unix中的管道:mapreduce-1 | mapreduce-2 | mapreduce-3 ......每一个阶段创建一个job,并将当前输入路径设为前一个的输出。在最后阶段删除链上生成的中间数据
2012-03-29 16:04:01
7819
原创 使用combiner提升性能
在上一节的AverageByAttributeMapper.py和AverageByAttributeReducer.py中计算平均值,由mapper读取,在网络上进行洗牌,reducer计算每个键的平均值。可以看到至少有两个效率瓶颈:如果有10亿条记录,mapper会生成10亿个 键值对 在网络上洗牌,实际上,在求最大值时,mapper只需要输出键中最大的一个。求平均值则可以重新定义算法
2012-03-29 15:11:51
1065
原创 hadoop的Streaming学习(续)
3.用Streaming处理键值对默认情况下,Streaming使用\t分离记录中得键和值,当没有\t时,整个记录被视为键,值为空白文本。不同于AttributeMax.py为每个键寻找最大值,这次我们试着为每个国家找到专利声明数的平均值。(Hadoop包含得名为Aggregate包,可以为每个键寻找最大值) (1)Streaming中得mapper通过STDIN读取一个 分片,并
2012-03-28 23:12:11
868
原创 Hadoop的Streaming学习
<!--@page {margin:2cm}p {margin-bottom:0.21cm}-->Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互
2012-03-28 21:12:40
600
转载 用 Eclipse 平台进行 C/C++ 开发——CDT的使用
C 和 C++ 语言都是世界上最流行且使用最普遍的编程语言,因此 Eclipse 平台(Eclipse Platform)提供对 C/C++ 开发的支持一点都不足为奇。因为 Eclipse 平台只是用于开发者工具的一个框架,它不直接支持 C/C++;它使用外部插件来提供支持。本文将向您演示如何使用 CDT — 用于 C/C++ 开发的一组插件。CDT 项目致力于为 Eclipse 平台提供功能完全
2012-03-19 22:28:15
1002
原创 Linux截图工具KSapshot
一个很不错得截图工具~~KSnapshot是KDE集成桌面环境自带的截图工具,不过在GNOME集成桌面环境下也可以安装和使用它。我们可以通过新立得软件包管理器或使用apt-get命令来安装它。假设使用命令行方式来安装,打开一个GNOME终端窗口,在终端窗口中输入如下命令:sudo apt-get install ksnapshot命令执行后,将在线下载并安装KSnapshot。
2012-03-15 18:29:26
741
原创 eclipse安装hadoop插件及配置
第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse下载解压后,直接
2012-03-15 17:46:39
3740
原创 ssh使用记录
1.安装OpenSSH服务器 一般用ps -e查看会发现只有ssh-agent进程. 使用sudo apt-get install ssh 安装ssh服务器,结束后使用ps -e | grep ssh会看到多了一个sshd进程,这就是ssh服务器进程2.ssh配置 OpenSSH守护进程在Red Hat中使用/etc/ssh/sshd_config配置文件,一般使用
2012-03-15 15:48:22
2704
linux设备驱动开发详解 宋宝华版
2011-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人