Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台, 用来方便地搭建快速的, 易于扩展的网络应用· Node.js 借助事件驱动, 非阻塞 I/O 模型变得轻量和高效, 非常适合 run across distributed devices 的 data-intensive 的实时应用·
提供RSS服务的站点超级多,百度、网易、新浪、虎嗅网 等等站点,基于java c++ php的rss抓取网上很多,今天说说NodeJs抓取RSS信息,
使用NodeJs做网络爬虫,抓取RSS新闻。各站点编码格式不一样 GBK,UTF-8,ISO8859-1等等,所以需要进行编码,对国人来说UTF-8是最酷的。抓取多站点,然后保存到数据库,充分利用javascript异步编程的特点,抓取速度超级快呀。
这个项目是为新闻android客户端实现的,以后我也会上传新闻客户端的源码。
本项目的源码托管在github:https://github.com/kissliux/rssSpider
环境需求:
NodeJs(必须), 我的版本是0.10.24
mongodb(可选),或者mysql等等其他数据库
编程工具:webStrom
第一步:新建nodejs项目,我一般建立express web项目
第二步: 在package.json文件添加依赖
"dependencies": {
"express": "3.4.8",
"ejs": "*",
"feedparser":"0.16.6",
"request":"2.33.0",
"iconv":"2.0.7",
"mongoose":"3.8.7",
"mongodb":"*"
}
执行以下代码,导入相关的文件到项目node_modules中:
npm install -d
第三步:
基本准备工作完毕,可以动手了写代码了。RS