- 博客(11)
- 资源 (1)
- 收藏
- 关注
Nutch爬取效率非常重要的一点
关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。http://my.oschina.net/junfrank/blog/290404除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:一、修改Gen...
2015-06-09 14:22:01
330
原创 java身份证校验类,直接拿去用
import java.text.SimpleDateFormat;import java.util.Date;/** * 验证身份证号码 身份证号码, 可以解析身份证号码的各个字段,以及验证身份证号码是否有效; 身份证号码构成:6位地址编码+8位生日+3位顺序码+1位校验码 * * @ClassName: CheckIdCard * @Description: TO...
2014-04-24 15:28:14
802
nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0
由于项目需要把nutch运行在hadoop2.2.0上,但是官方网站上给出的版本为hadoop1.2.0,于是需要做版本兼容,[b]我们选取的nutch版本为2.2.1,以为最大的版本是最新的,后来发现无知了[/b],这也是后来痛苦经历的根源。[b]先说结论,nutch1.8直接可以运行在hadoop2.2.0上,不用为版本兼容做任何修改。[/b]但是不知道这一结论之前我为了兼容n...
2014-04-16 18:06:49
181
Centos yum repo共享~直接拿去用
[base]name=CentOS-6 - Basemirrorlist=http://mirrorlist.centos.org/?release=6&arch=$basearch&repo=os#baseurl=http://mirrors.163.com/centos/6/os/$basearch/gpgcheck=0gpgkey=file:///etc/pki/rpm-...
2014-04-03 18:07:23
179
原创 [转]Tomcat中JVM内存溢出及合理配置
转自: http://blog.youkuaiyun.com/ye1992/article/details/9344807Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个Java虚拟机。Tomcat的内存溢出本质就是JVM内存溢出,所以在本文开始时,应该先对Java JVM有关内存方面的知识进行详细介绍。一、Java JVM内存介绍JVM管理两种类型的内存...
2014-02-12 11:55:31
129
原创 docx4j写入word中文乱码问题
本猿由于项目需求需要生成报告,辗转找到docx4j但是用的人实在太少,几经波折终于可以生成docx了,不过使用windows+eclipse+tomcat的环境运行中文死活乱码后来也没继续调,就放到Centos上运行了,奇迹般的好了。。。之前使用hive的时候也遇见过编码读取操作系统的默认编码的情况,个人猜测是不是也跟这个有关,不过由于问题解决了,本猿也就没深究了,不过特此记录也算...
2014-01-23 14:51:08
1403
hbase/hadoop异常退出挂掉后恢复
一、恢复hadoop1、停止所有服务2、在namenode节点执行 hadoop namenode -format3、删除/home/hadoop/hadoop-root/dfs下的data和name,并且重新建立4、删除/home/hadoop/hadoop-root/tmp下的文件5、启动hadoop服务-----自此hadoop恢复----6、停止hbase服...
2014-01-20 14:56:04
297
原创 关于数字运算溢出的推想
先说结论:在进行数字运算时,如果涉及到向上转换,一定要把要转换的标记为先计算的。如下:100+1000000*1000000*10L 结果溢出100L+1000000*1000000*10 结果溢出100+1000000L*1000000*10 结果正确详细:今天写代码时要算N小时之前的时间戳,有如下代码:int N = 1000;long queryT...
2014-01-03 18:30:56
198
IP和数字相互转换函数
留着备份~ public static String Ip2Number(String ip) { String[] segs = ip.split("\\."); long value = 0; for (int index = 0; index < segs.length; ++index) {...
2014-01-03 15:50:26
181
原创 使用ajax返回json数据应注意的几点问题
先说结论: 1、触发的action函数不要以get开头 2、不需要构造成json数据的变量,尽量不要提供get方法 3、动作类函数不要以get开头 4、所有要构造成json的get返回对象都要序列化原因: 重要特性: 函数执行完毕后会调用action类中所有get开头的函数构造json数据 1、触发action函数返...
2013-10-14 10:30:13
166
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人