把另外的一个项目加入了nutch中来

作者尝试将项目以插件形式集成到 Nutch 中,并实现了网页爬取及数据解析功能。日志显示插件成功抽取了产品名称、价格等信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下,刚开始总以为把一个项目都以plugin的形式加入到nutch中来,是不是有点.......嗨,搞呗。周日竟然成功了,分享下新得先。

先贴出来先日志的东东吧,我们要求的是nutch边从网站上爬取,所加入的项目(plugin)得边去解析(抽取)数据。就这么简单,插件的介绍在上几次已经介绍过了,看下日志:

product_name = The Incident (CD) 
product_price =     $14.01  
product_image = http://i43.tower.com/images/mm113708247/incident-porcupine-tree-cd-cover-art.jpg 
product_category = Music Rock & Pop Progressive Rock 
product_description = ?             ?             ??                         ???                           ???Learn more about the  format using Tower WIKI.                            September 15, 2009  1    016861785727   113708247     #748 in Music  (See ) #347 in Rock & Pop (See ) #2 in Progressive Rock (See ) 
product_review =                   To sample an individual track, click the  button located beside your desired song.              
product_type = dvd

product_url = http://www.tower.com/incident-porcupine-tree-cd/wapi/113708247

 

至于乱码,先不用管,可能是上次程序的bug吧。这也是在澳门回归十周年的这一天搞出来的啊。不过也得先祝贺一下我们的祖国繁荣昌盛,越来越强大!今天先写到这吧!

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值