Heritrix资源、绑定IP、启动参数、中文乱码

本文档提供了Heritrix的详细配置说明,包括启动参数设置、绑定IP地址的方法及解决中文乱码问题的具体步骤。此外,还提供了一些有用的参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Heritrix资源

网络上的Heritrix中文资源比较少,整理一下:

 

中文:

l         《开发自己的搜索引擎 Lucene 2.0 + Heritrix》作者邱哲&符滔滔的BLOG

http://lucenebook.spaces.live.com/

 

l         《开发自己的搜索引擎 Lucene 2.0 + Heriterx第十章扩展Heritrix试读章节

(可以考虑开发的,比较有用)

http://book.youkuaiyun.com/bookfiles/312/10031212848.shtml

 

l         Heritrix笔记

http://wiki.hoodong.com/wiki/jRwNBCFgWA1dYB0NC

 

l         Heritrix crawler vs Nutch crawler

http://www.dbanotes.net/web/heritrix_crawler_vs_nutch_crawler.html

 

l         天下维客-爬虫程序

http://www.allwiki.com/wiki/Heritrix#Heritrix.E7.9A.84.E5.B1.80.E9.99.90

 

英文:

l         Heritrix主页

http://crawler.archive.org/

 

l         HTMLParser主页

http://htmlparser.sourceforge.net/

 
 

Heritrix绑定主机IP

关键字:Heritrix 127.0.0.1 IP 主机

 

Heritrix默认绑定的IP127.0.0.1

org.archive.crawler.Heritrix

 

final private static Collection<String> LOCALHOST_ONLY =

     Collections.unmodifiableList(Arrays.asList(new String[] { "127.0.0.1" }));

private static Collection<String> guiHosts = LOCALHOST_ONLY;

 

protected static String doCmdLineArgs(final String [] args)

throws Exception {

    // Now look at options passed.

        for (int i = 0; i < options.length; i++) {

            switch(options[i].getId()) {

               

                case 'b':

                    Heritrix.guiHosts = parseHosts(options[i].getValue());

                    break;

               

                default:

                    assert false: options[i].getId();

            }

        }

}

 

首先定义了默认IP127.0.0.1,然后赋给guiHost主机变量。当指定-b--bind参数时,才会把指定的IP赋给主机变量。

另外,中间还有一步参数处理,对于--xxxx参数会转为-x的形式统一处理,所以--bind-b有一样的效果。

 

Heritrix启动参数

关键字:Heritrix 启动 参数 bind admin properties

 

Heritrix的启动参数,除了--bind外,都可以在heritrix.properties设置,而不用每次都在命令行中输入。

如常用的--port, --admin等。

 

heritrix.cmdline.admin = admin:admin

heritrix.cmdline.port = 8080

heritrix.cmdline.run = false

heritrix.cmdline.nowui = false

heritrix.cmdline.order =

heritrix.cmdline.jmxserver = false

heritrix.cmdline.jmxserver.port = 8081

 

关于HeritrixExtractor中文乱码

关键字:Heritrix 中文 乱码 GB2312 Extractor

 

继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。

 

curi.getHttpRecorder().getReplayCharSequence.toString()

 

有中文时,不做处理会输出乱码。可以在取到的HttpRecorder后设置编码:

 

HttpRecorder hr = curi.getHttpRecorder();

if ( hr == null ) {

    throw new IOException( "Why is recorder null here?" );

}

hr.setCharacterEncoding( "gb2312" );

cs = hr.getReplayCharSequence();

System.out.println( cs.toString() );

 

 

阅读(2738) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
评论热议
内容概要:文章基于4A架构(业务架构、应用架构、数据架构、技术架构),对SAP的成本中心和利润中心进行了详细对比分析。业务架构上,成本中心是成本控制的责任单元,负责成本归集与控制,而利润中心是利润创造的独立实体,负责收入、成本和利润的核算。应用架构方面,两者都依托于SAP的CO模块,但功能有所区分,如成本中心侧重于成本要素归集和预算管理,利润中心则关注内部交易核算和获利能力分析。数据架构中,成本中心与利润中心存在多对一的关系,交易数据通过成本归集、分摊和利润计算流程联动。技术架构依赖SAP S/4HANA的内存计算和ABAP技术,支持实时核算与跨系统集成。总结来看,成本中心和利润中心在4A架构下相互关联,共同为企业提供精细化管理和决策支持。 适合人群:从事企业财务管理、成本控制或利润核算的专业人员,以及对SAP系统有一定了解的企业信息化管理人员。 使用场景及目标:①帮助企业理解成本中心和利润中心在4A架构下的运作机制;②指导企业在实施SAP系统时合理配置成本中心和利润中心,优化业务流程;③提升企业对成本和利润的精细化管理水平,支持业务决策。 其他说明:文章不仅阐述了理论概念,还提供了具体的应用场景和技术实现方式,有助于读者全面理解并应用于实际工作中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值