自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 问答 (1)
  • 收藏
  • 关注

原创 HDFS异常集合 - - 持续更新

[b][size=x-large][color=red]AccessControlException[/color][/size][/b]eclipse 运行一些基本的对HDFS操作代码报没有权限的异常:[code="java"] org.apache.hadoop.security.AccessControlException: Permission denied: user=jhm, ...

2013-03-28 11:48:17 230

原创 nutch 2.1 分布式hbase部署

官方文档:http://wiki.apache.org/nutch/Nutch2Tutorial?action=show&redirect=GORA_HBase现在网上针对nutch 2.0 以上版本的部署内容很残缺。经过两天奋战,终于把nutch 2.1在hbase上部署成功了!在此与网友分享。准备两台机器:cr5(master):192.168.8.185,cr8(slav...

2013-02-28 17:07:01 274

eclipse 部署lucene solr 4.1

首先普及一下基本常识,应该是从3.6开始吧,lucene和solr就已经同步发行了。而solr是对lucene的扩展,所以solr源码包里面包含了lucene的源码。那我们这次部署主要是针对solr的部署~网上针对4.0以上的版本,部署方案可谓是千奇百怪。但是仔细看看WIKI。其实部署步骤灰常简单。废话不多说,开始部署~第一步:官网下载solr 4.1 源码:[...

2013-01-31 11:23:08 184

原创 JavaScript内核之基本概念

本章主要讲述JavaScript中的数据类型(基本类型与引用类型),变量(包括变量的作用域),操作符(主要是一些较为常见,但是不容易从字面上理解的操作符)。由于JavaScript中的“一切皆对象”,在掌握了这些基本的概念之后,读者就可以较为轻松的理解诸如作用域,调用对象,闭包,currying等等较难理解的概念了。[size=large][b]数据类型[/b][/size]有程序...

2012-08-02 11:43:02 141

原创 JavaScript入门之语言基础

[size=large][b]了解JavaScript语言[/b][/size]JavaScript语言是一种免费的客户端脚本语言,其能够让你往超文本标记语言(Hypertext Markup Language,HTML)页面中加入交互行为。客户端(client-side)意味着JavaScript运行在浏览器中,而不是用在服务器端。在网页被服务器送达并被浏览器加载后,客户端脚本就允许用户...

2012-08-02 10:18:58 121

linux 修改读取最大文件数

查看linux读取文件数量用 ulimit -n 查看如果是root 权限 可以用 ulimit -n size 来修改linux读取额外年间数量但是非root权限会报 limit command not found 的异常非root权限的处理方法[code="java"]If you want to set it permanently, especially for...

2012-06-11 14:31:15 211

不可见字符正则匹配

不可见字符通常是指页面显示时看不到的字符比如\r\n\t\f 换行符,制表符等。他们可以统一通过\s表示但是还有一些aciss的字符可以通过\\p{Z}来匹配

2012-02-17 11:29:14 3584

JAVA 位运算符和位移运算符

java位运算符包括 &(与) AND |(或) OR^(异或) XOR~(非) NOT位移运算符包括 >>(右移)>(右移,左边空出的位以0填充)顾名思义,位运算符用于位运算,那就只能对整型或者字符型进行运算。而除了~(非)是一元运算符之外其他的都为二元运算符。所有位运算都会把值转为二进制进行运算[b...

2012-02-09 11:57:28 224

原创 RPC

来自百度百科 [url]http://baike.baidu.com/view/32726.htm[/url]RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨...

2011-11-18 17:54:01 130

正则匹配不包含某个字符且包含某个字符的字符串

(^(?=(.(?!iask))+$)(?=.*(\\.html)))此正则大致意思是:匹配不包含iask且包含html的字符串

2011-11-10 12:16:07 642

初探map/reduce原理

下面的代码来自于hadoop官网,但是那个例子很繁琐,我对此作了简化运行下面代码必须在linux系统上,并且已经成功部署安装hadoop[code="java"]package com.hadoop.test3;import java.io.IOException;import java.util.*;import org.apache.hadoop.f...

2011-10-10 16:06:25 151

java 线程个人总结

[b]关于原子[/b]嗯,为什么要加锁?相信有点基础的童鞋都很清楚。在多线程情况下调用方法主要会出现两类问题 --原子性和非原子性!那他们各自会在神马情况下出现捏?举一个《thinking in java》第四版中的例子。有一个EvenGenerator类,它的next()方法用来生成偶数。如下:[code="java"]public class EvenGenerator {...

2011-09-15 16:14:50 124

"Host 'localhost' is not allowed to connect to this MySQL server" 的原因及解决办法

今天在操作数据库的是否发现突然无法启动MYSQL服务,想了想原因是因为自己改动了my.ini文件导致的。所以大家千万不要随便改哦~解决无法启动mysql的问题很容易,在安装根目录下都会有my.ini文件的备份。我们可以根据以前的_bak文件直接恢复。还有一个问题就是 "Host 'localhost' is not allowed to connect to this MySQL se...

2011-08-29 14:17:03 344

linux(ubuntu) 之间互挂磁盘 以及 linux挂载windows磁盘

[color=red][b]原创文章,转载请注明出处[/b][/color][b]Linux(ubuntu) 之间挂载磁盘[/b]1.两台机器都要安装nfs[code="java"]sudo apt-get install nfs-kernel-server[/code]2.挂在命令[code="java"]sudo mount -t nfs 192.168.1.220...

2011-08-04 17:31:34 268

抓取中应该考虑GB编码的问题

今天,测试的同学在测试我的爬虫的时候发现了一些‘?’的字符,也就是无法识别编码的字符。开始我很诧异,毕竟我用了自动编码识别的很成熟的架构,为虾米会有这种字符?仔细分析了一下页面,页面的编码是'gbk'而用我的程序识别出来是'gb2312'因为分析只采集了前面100个字符作为样本,所以识别出来的是'gb2312'。因为'gb2312'是属于'gbk',只包括一些常见汉字,如果万一有一个偏的汉字出现那...

2011-06-30 13:52:51 129

KFS 正式部署的时候遇到的问题

[b]一,大硬盘挂载[/b]1 查看所有的磁盘[code="java"]sudo fdisk -l |more [/code] 2 设置磁盘[code="java"]sudo fdisk /dev/sdb [/code][code="java"]-compatible mode is deprecated. It's strongly recommended to ...

2011-05-05 11:36:07 226

Ubuntu文件系统

[b]一、Ubuntu文件系统的主要目录[/b][table]|目录|英文全名|用途||/|/|整个目录结构的起始点,所有其他文件和目录都在它下面||/bin|Binaries|用来存放最常用的二进制命令||/boot|Boot|包含引导Linux的重要文件,如grub和内核文件等||/dev|Devices|所有设备都在该目录下,包括硬盘和显示器等||/etc|etc|系...

2011-04-22 17:03:56 117

代码整合链接KFS

[b]客户端代码[/b] 通过应用程序使用API,有两个例子在以下包中。 - ~/code/kfs/examples/KfsTest_main.cc - ~/code/kfs/examples/KfsTest.javaEach program shows how to use the client-side API. The KFS clientlibrary API...

2011-02-23 12:58:35 147

KFS部署配置说明及管理

[b][color=red]原创文章转载请注明出处:http://wangwei3.iteye.com/blog/916476[/color][/b][b]基本机器配置[/b]此配置在 scripts/machines.cfg为服务定义的三个变量: * node: 这个变量指定NODE应该在那个服务上被实例化运行 * rundir: 这个变量指定NODE的binaries...

2011-02-22 16:50:04 273

Hypertable 的安装与整合KFS

[color=red][b]原创文章:转载请注明出处 http://wangwei3.iteye.com/admin/blogs/909096[/b][/color][b]安装Hypertable[/b]下载安装包(http://www.hypertable.com/download/)hypertable-0.9.4.3-linux-i386.deb 55MB Debian,...

2011-02-17 17:01:45 180

KFS部署与应用

[b][color=red]原创文章:转载请注明出处http://wangwei3.iteye.com/blog/905856[/color][/b][b]安装软件[/b][b]一、安装依赖软件[/b]1、安装log4cpptar xvzf log4cpp-1.0.tar.gzcd log4cpp-1.0./configuremakemake install...

2011-02-14 14:09:21 273

htmlparser抽取表格

[b][color=red]原创文章:转载请注明出处[/color][/b][code="java"]try { Parser parser=new Parser("http://detail.zol.com.cn/260/259165/param.shtml");// NodeFilter nodeFilter=new HasAttributeFilter("","");...

2011-01-25 16:34:07 282

hadoop第二步:将hadoop的HDFS替换成KFS

[color=red][b]原创文章:转载请注明出处http://wangwei3.iteye.com/blog/895867[/b][/color]最近需要把hadoop的HDFS替换成KFS。其实具体性能的差异我还没有测试过。不过理论上说,C+写的KFS应该在性能上比HDFS更胜一筹。关于底层的FS的支持。hadoop的扩展性着实不错。KFS便是其中一种那么如何配置呢?首先...

2011-01-25 16:26:20 241

Hadoop第一步:部署分布式服务

[color=red][b]原创文章:转载请注明出处[/b][/color]最近有幸开始接触云。哈哈,先从hadoop入手部署hadoop的文档很多,但是还是遇到了不少问题,下面和大家分享一下我的部署全过程吧版本号:hadoop 0.21.0 下载地址:[url]http://www.apache.org/dyn/closer.cgi/hadoop/core/ [/url]...

2011-01-17 13:44:59 116

原创 Ubuntu下固定ip的网卡配置

来源:linux公社Ubuntu下固定ip的网卡配置准备工作要先了解下vi命令,随便google下就能了解: 1。单网卡配单IP(普遍)vi /etc/network/interfaceauto eth0iface eth0 inet staticaddress IPnetmask 子网掩码 gateway 网关2....

2011-01-12 20:25:20 106

linux压缩和解压缩

首先到你需要压缩/解压的目录下 cd /home/..用ls命令查看此目录下的所有文件解压比如我要解压test.tar.gz文件用 gzip -d test.tar.gz命令这样test.tar.gz 就会变为 test.tar然后用tar xvf test.tar这个命令就可以解压成功了压缩首先建立tar文件tar cvf test.tarte...

2010-12-30 14:04:22 92

Linux第一步配置静态MAC和自动获取

修改MAC地址的语句ifconfig eth0 down ifconfig eth0 hw ether MAC(例如:00:04:a2:d2:e2:12)ifconfig eth0 up 注意:MAC是16进制的还有修改完后重启系统后。MAC又变回原来的地址。所以呢需要静态配置在在/etc/rc.d/rc.local中加入以下三行(也可在/etc/init.d/networ...

2010-12-30 10:29:49 538

原创 HTTP header

有四种头标:1. 通用头标 既可用于请求有可用于响应,并且是作为一个整体而不是特定资源 与事务相关联。2. 请求头标 允许客户端传递关于自身信息和希望的响应形式。3. 响应头标 服务器用于传递自身信息和响应。4. 实体头标 定义被传送资源的信息。既可用于请求,也可用于响应头标以如下的单行形式发送。:其中...

2010-12-22 15:47:15 139

原创 MySQL函数

[b]一、 控制流程函数[/b]  a) CASE WHEN THEN 函数    语法: CASE value WHEN [compare-value] THEN result [WHEN [compare-value] THEN result ……] [ELSE result ] END CASE WHEN [condition] THEN result [WHEN[cond...

2010-11-30 16:18:53 76

如何读取gzip压缩网页

最近在抓取搜狐的时候发现下载下来的页面都是乱码,开始以为是解码出了问题可是查找半天无果,很是郁闷。返回的状态码是200,怎么都是乱码呢?难道是页面做了加密?其实这是搜狐为了加快网页加载速度对页面做了压缩。哎,我out了~~~~下面来解决这个问题吧~~~1.如何判断页面是否是压缩的URLConnection hc = null;hc.getHeaderField("Conte...

2010-11-30 10:26:01 189

eclipse部署配置nutch1.3

[img][/img][color=red][b]原创文章,转载请注明出处 nutch群:74985182 欢迎加入交流[/b][/color]nutch是在hadoop基础上做的,由于hadoop只在linux上运行,里面涉及到大量的操作linux程序,所以我们在部署的时候必须先安装cygwin环境[b]一、安装cygwin环境[/b]cygwin是windows下模拟linu...

2010-11-19 12:15:06 163

原创 Heritrix中的SURT和SurtPrefixedDecideRule

在Heritrix中,如果我们需要抓取指定host的网页,需要用到SurtPrefixedDecideRule这个规则。这里根据Heritrix的文档,解释一下SURT。SURT全称是Sort-friendly URI Reordering Transform。目的是将一个URL转换成更方便的格式进行处理。....SURT类可以将下面这种形式的URL:...

2010-11-17 16:31:51 152

heritrix设计详解(一) 总述

[b][color=red]原创文章:转载请注明出处[/color][/b]读了一段时间的源码,结合网上的文档和自己的理解来详解下heritrix的体系结构,总体来说hertitrix是一个设计优良的框架,扩展性极强,除了无法实现分布式之外,其他部件都可以被扩展。[b]体系结构[/b]CrawlController(下载控制器):整个下载过程的总的控制者,整个抓取工作的起点,决...

2010-11-17 10:39:35 176

原创 Java 位运算符

Java 位运 算 符 位运算符用来对二进制位进行操作 ,Java中提 供 了 如 下所 示 的 位 运 算符 : 位 运 算 符 (>>,<<,>>>,&,|,^,~ ) ,位运 算 符 中 ,除 ~ 以 外 ,其余 均 为 二 元 运 算 符 。 操 作 数 只 能 为 整 型 和字 符 型 数 据 。 基础知识 补码 所有的整数类型(除了char 类型...

2010-11-17 10:24:54 87

原创 spider技术综述

转自soso 出处:http://blog.youkuaiyun.com/soso_blog/archive/2010/07/28/5771350.aspx Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环...

2010-11-12 10:41:02 117

Heritrix源码之 处理链

heritrix源码真不是一般的复杂,但是一点一点解析的话还是能看懂的处理链是heritrix里面最重要的地方之一,对页面的操作都通过处理链完成,其配置的灵活程度和通用性十分强大。别的程序也可以借鉴哦~~~ProcessorChainList 处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每...

2010-11-09 18:09:48 243

原创 爬虫 js,flash,ajax网页(JREX)

抓取的过程中会遇到很多对爬虫不友好的页面,比如js,ajax,flash等等,正在为这些页面苦恼时发现JREX,调用firefox内核渲染页面可以很好的解决这些问题不过现在JREX已经没有人维护了最新版是在05年发布的"JRex" is a Java Browser Component with set of API's for Embedding Mozilla GECKO with...

2010-11-09 15:44:51 408

原创 Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

[color=red]转自:http://guoyunsky.iteye.com/blog/650744[/color] 1.Heritrix的初始化:[code="java"]/** * 初始化CrawlController * @param sH 配置文件(order.xml)对象 * @throws InitializationException 初始化异常 */ pub...

2010-11-04 10:58:07 166

原创 爬虫基本原理及概念

爬虫在网络中爬行的时候,将Web 上的网页集合看成是一个有向图,从给定的起始URL 开始,沿着网页中的链接,按照一定的策略进行。通常用到以下几种遍历算法:1、深度优先算法该算法是指网络爬虫会从选定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节点,即不包含任何超链接的HTML 文件,处理完这条线路之后再转入下一个起始页,继续访问新的起始页面所包含的...

2010-10-22 17:35:52 557

原创 mysql locked 解决方案

最近发现程序运行速度明显变慢,而且CPU常常在90%以上!通过检测发现瓶颈居然在mysql,通过运行 SHOW PROCESSLIST 可以看到很多locked的查询语句,当时过了一个小时左右locked的情况又不见了。由此可见locked不是死锁。那为什么会出现locked呢?在MySQL中对于使用表级锁定的存储引擎,表锁定时不会死锁的。这通过总是在一个查询开始时立即请求所有必要...

2010-10-14 09:53:10 320

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除