tbfetcher项目小结

本文介绍了使用Java开发的一个具体爬虫项目案例,包括项目需求、技术选型、第三方类库应用及项目管理等方面的经验总结。

今年4月份为了缓解生活上的压力,不得不开始了一个新的私活项目,现在差不多到了项目收尾的阶段了,也该总结一下做完这个项目后,自己从中学到的一些知识。

项目情况介绍

这个项目是由同学介绍,由我和另外一位同学共同合作完成的,项目的需求大致是这样的:从淘宝电子商务网站,根据对方指定的数据格式,完成数据的抓取并将数据写入excel文件中保存,数据的总量大约有100w条。

前期调研工作

前期的调研工作主要有以下方面:

1) 确定项目需求,经过和对方的多次交流讨论,最终形成了一份项目需求规格说明书;

2) 确定项目开发语言;

可采用的开发语言有

c#:因为之前自己曾经用c#写过一些简单的数据抓取和解析html的程序;

java:有丰富的类库和成熟的文档;

c/c++:现成的类库相对于其他的语言会比较少;

经过比较衡量,最后选择了java来进行开发,一方面是由于java是开源的,开源的类库比较多;另外一方面和我合作的另外一名同学对java比较熟悉,所以最终选定了java;

3)项目管理工具使用的是maven3,版本管理工具使用的是svn,IDE使用的是eclipse;

ps: svn host使用的是googlecode,访问速度比较慢,不过忍了

4)使用的第三方类库主要是:

     httpclient4     最核心的第三方类库,主要完成http get,post请求和cookie的管理;

     jsoup            html解析类库;

     jxl                 操作excel类库

收获

通过这个项目的开发,发现自己对程序开发有了更深一步的认识,主要是以下方面:

1)更深刻的理解了oop思想,其中类的单一职责原则,理解更深刻;

2)项目管理方面也得到了一定程度上的提升;

3)对于如何更好的使用第三方类库方面也有自己的一些看法和见解;

4)以后还是在linux下使用c++来做一些私活吧,比较靠谱,感觉自己还是不适合做java开发;

转载于:https://my.oschina.net/gschen/blog/62889

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值