- 博客(32)
- 资源 (7)
- 收藏
- 关注
原创 nutch 2.2.1 InjectorJob 类
InjectorJob 类主要是从文件中读取URL,对URL进行处理后,写入到webpage表中。UrlMapper 类
2015-08-05 21:06:05
341
原创 nutch2.2.1抓取流程
整体流程:InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJobInjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去FetcherJob: 对
2015-08-04 21:11:17
357
原创 Nutch2.2.1 开发环境搭建
1. 环境准备需要的环境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的两个插件subclipse和IvyDe,下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。2.从SVN检出项目地址https://svn.apach
2015-08-02 19:56:46
459
原创 nutch2.2.1 mysql 建表语句
CREATE TABLE `webpage` ( `id` varchar(250) NOT NULL, `headers` blob, `text` mediumtext, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20
2015-08-01 21:45:46
790
转载 nutch 过滤字符
今天碰到问题,url正则过滤老是出问题,不爽之下,又打开源码了。Crawl.java里有这么一段for (i = 0; i // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis())
2015-08-01 14:05:14
354
转载 nutch 配置crawl-urlfilter.txt,regex-urlfilter.txt和nutch-site.xml
1:解压缩的nutch后,到conf下面修改crawl-urlfilter.txt# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*apache.org/+^http://([a-z0-9]*\.)*longtask.com/blog/如果有需要可以继续添加相关的站点. 2:修改conf下面的nutch
2015-08-01 08:39:04
1348
原创 nutch protocol not found
eclipse 搭建完成nutch 2.2.1 之后,运行,报错如下:org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:91)
2015-08-01 08:33:46
1223
转载 nutch 学习 过滤器
Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter.txt几个文件用于实现过滤抓取数据,比如不抓取后缀为gif、exe的文件等,通过修改其中的值可以达到只抓取感兴趣的内容的目的,在一定程度上也有助于提高抓取速度
2015-07-31 23:24:55
357
原创 阅读笔记-我的互联网方法论
最近读了周鸿祎写的书-“我的互联网方法论“,此书通读下来,感觉收获很大,对老周以及360的产品也有了一番新的认识。老周将他自己做产品的心得在书中做了详细的阐述,此书对我最大的启发是让我初步了解到如何做好一个互联网的产品,以及在做的过程中应该注意那些问题,比如产品思维、用户思维、微创新等等; 做互联网产品,首先要对趋势的判断比较准,因为没有人能挡住趋势,例如北京中关村卖3c产品的,如
2015-07-12 16:43:44
440
转载 解决问题的七步法
善于解决问题的能力通常是缜密而系统化思维的产物。解决问题的七个步骤:步骤一: 陈述问题一个主导型的问题或者坚定的建设具体,不笼统有内容的可行动的以决策者下一步所需的行动为重点首要任务对问题进行准确了解步骤二:分析问题使用逻辑树步骤三:去掉所有非关键问题假设及数据之间来回穿梭。使用80/20的思维方式步骤四:制定详细的工作计划提
2015-07-07 00:30:56
1103
转载 阅读分享-海尔的人单合一模式
海尔的人单合一模式,已经成为很多企业学习的典范。这个模式说起来,我总结的两点,其中一个模式机会公平,而不是结果公平的机制。第二,真正能让组织里头每一个人发挥自己的才能和价值; 人单合一:人单合一双赢模式这个人可以理解成员工,也可以理解成利益有关方,这是人。单是用户需求,用户价值。人单合一就是怎么样把所有利益有关方、员工、用户融为一体,怎么更好为客户创造价值;双赢体现机制的导向,
2015-07-06 21:58:33
5110
原创 读书笔记-决战大数据
用数据来帮助企业运营和解决问题,数据化运营用数据去解决问题;采用西方式的思考方式,侧重于系统性的分析,对一件事的理解过程,利用数据对之进行细分、归类、对比、溯源以及从动态中找出变化的规律;PIMA P-目的 purpose I-定义 Identify M-量化 measure A -评估 assess 数据的价值从3个维度考虑 1)识别用户 2)数据对你的价值 3)收
2015-07-06 15:08:40
649
原创 maven学习笔记
关于maven的配置文件pom.xml说明:maven的坐标元素包括groupId artifactId version packaging classifier maven的中央仓库包含了世界上大部分流行的开源项目构件 http://repo1.maven.org/maven2指定了当前POM模型的版本,对于maven2 和 maven 3 他的取值必须是4.0.0
2015-06-04 20:40:05
275
ORA-12838 错误处理
如果用了insert /*+ append */ into table as select .. from table 这样的操作来insert,必须在操作后commit,或是rollback,不然就不能再insert /*+ append */ into table as select .. from table 。ORACLE报出错误如下:ORA-12838: cannot read/...
2009-06-20 11:21:42
1221
crontab 命令详解
cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方法启动、关闭这个服务: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 ...
2009-05-22 16:59:24
127
ORACLE创建DBLINK
以ORACLE 10G 为例说明1. 首先需要在数据库服务器上找出tnsnames.ora 配置对方的主机IP和SID等 ,进入/oracle/product/RAC10g/network/admin$ 目录下 找出tnsnames.ora 然后开始 修改 tnsnames.ora文件 vi tnsnames.ora test= (DESCRIPTION = ...
2009-05-19 18:04:31
114
Tomcat自动加载
在JAVA文件重新编译后,经常要重启Tocat可以,设置它自动加载: 在server.xml里加入的context里加入reloadable=true
2009-05-12 20:27:48
99
ORACLE用户被锁定
ORACLE用户修改密码后,发现这个用户的状态被锁定了,使用如下语句解锁:alter user user_name account unlock;解锁后,发现过一会又锁了,后台发现是应用的某个进程在持续的不断用以前的用户名连接数据库,为了防止数据库账号被锁定,妨碍其他应用和后台进程,就将数据库用户密码锁定的最大连接次数修改了一下:语句如下:alter profile...
2009-05-11 21:48:45
137
mysql数据库字符集问题
向mysql数据库插入汉字的时候,说是data too long 查看我设置的长度 是varchar 长度100,后来想想可能是字符集的问题,重新设置数据库的字符集后就OK!MYSQL:\ CREATE DATABASE DATABASE_NAME CHARACTER SET GBK ; 或者是utf-8都可以;也可以创建表的时候加上数据库字符集的设置-- -----...
2009-05-11 18:09:26
119
原创 java:comp/env/jdbc/datasource 与 jdbc/datasource 的不
理解JNDI中 java:comp/env/jdbc/datasource 与 jdbc/datasource 的不同之处。 在描述JNDI,例如获得数据源时,JNDI地址有两种写法,例如同是 jdbc/testDS 数据源:A: java:comp/env/jdbc/testDSB: jdbc/testDS这两种写法,配置的方式也不尽相同,第一种...
2009-05-09 22:15:03
143
TOMCAT配置MYSQL数据源
1.进入 http://localhost:8080/admin/ conf文件夹下的tomcat-users.xml有管理员的用户名密码等信息。 选择Resources-Data sources进入配置数据源界面,选择Data Source Actions ->选择Create New Data Source,进入配置详细信息界面,内容如下: JND...
2009-05-09 12:26:11
219
原创 ANT的下载和配置
ANT 下载,ant的配法 下载http://www.apache.org/dist/ant/binaries下的apache-ant-1.7.1-bin.zip 接压安装。 ant的配法: 1。解压ant的包到本地目录。 2。在环境变量中设置ANT_HOME,值为你的安装目录。 3。在环境变量中设置JAVA_HOME,值为你的jdk安装目录。 4。...
2009-05-08 14:10:42
105
原创 web.xml详解
web.xml元素介绍 每一个站的WEB-INF下都有一个web.xml的设定文件,它提供了我们站台的配置设定. web.xml定义: .站台的名称和说明 .针对环境参数(Context)做初始化工作 .Servlet的名称和映射 .Session的设定 .Tag library的对映 .JSP网页设定 .Mime Type处理 .错误处理 .利用J...
2009-05-08 10:53:08
81
IN和EXISTS区别
1.IN和EXISTS:EXISTS要远比IN的效率高。里面关系到full table scan和range scan。几乎将所有的IN操作符子查询改写为使用EXISTS的子查询。IN 一般都是全表扫描 形如select * from t1 where f1 in (select f1 from t2 where t2.fx='x'),其中子查询的where里的条件不受外层查询...
2009-05-06 10:21:42
88
简单的unix命令
vi的两种模式:命令模式和输入模式不论在何种模式下,用户按下ESC键,总能切换到命令模式下面:w 保存编辑后的文件内容,但是不退出:wq 保存编辑后退出ZZ 如果文件已经修改,则保存后退出vi:q 当用户未作任何修改而准备退出vi 如果已经编辑了文件,则不能使用:q:w filename 把编辑后的文件保存到指定的文件中:w! filename 强制把编辑后的文件保存到...
2009-05-06 09:41:48
114
ORACLE查询低效率SQL和耗费内存的SQL
----低效率sqlSELECT EXECUTIONS , DISK_READS, BUFFER_GETS, ROUND((BUFFER_GETS-DISK_READS)/BUFFER_GETS,2) Hit_radio, ROUND(DISK_READS/EXECUTIONS,2) Reads_per_run, SQL_TEXT FROM V$SQLAREA ...
2009-05-06 09:35:59
202
ORACLE闪回技术
1 .误删了一部分数据 (delete) 想回恢复数据,oracle flashback闪回误删除的表数据SQL> alter table ps_audit_groupactivity enable row movement;SQL> flashback table ps_audit_groupactivity to timestamp to_timestamp('2007-04-30...
2009-05-06 09:27:37
82
ResultSet转换为List的方法
ResultSet转换为List的方法 private static List convertList(ResultSet rs) throws SQLException { List list = new ArrayList(); ResultSetMetaData md = rs.getMetaData(); int columnCount = md.getCo...
2009-05-02 23:41:57
156
MYSQL 安装和基本命令
开发使用的TOMCAT 版本5.0.28开发使用的MYSQL数据库mysql-5.0.22MYSQL数据库开发工具Navicat_MySQLJDK1.4基础工作:1.配置环境变量 JDK环境变量:JAVA_HOME TOMCAT环境变量:CATALINA_HOME MYSQL环境变量:MYSQL_HOME 遇到的问题:MYSQL安装耗费时间...
2009-04-22 23:57:39
97
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人