最近一直在学习nodejs
今天自学了爬虫系统 个人感觉还蛮有意思的 做一个爬虫系统很简单。
首先打开webstorm或者sublime 创建一个node.js文件系统
然后配置爬虫环境(node模块):
1、Express //npm install express --save
2、Request //npm install request --save-dev
3、Cheerio //npm install cheerio --save-dev
安装这三大模块后,就可以进行具体操作:
var express = require('express'); var app = express(); var request = require('request'); var cheerio = require('cheerio'); app.get('/', function (req,res) { request('http://www.ucai.cn/newhome', function (error, response, body) { if (!error && response.statusCode == 200) { console.log(body) // Show the HTML for the Google homepage. var $ = cheerio.load(body); var form = $('.form-area').html(); var lis = $('li').html(); res.send(form); } }) }); app.listen(3000);
在app.js中先后引入var request=require('request')、var cheerio = require('cheerio');
查看npm request文档,输入需要爬虫的网址,获得网站的全部内容
然后查看npm cheerio 文档, 从刚获得的网址全部内容中挑选出你想要的信息,$('li') 、 $('.form-area') 、 $('#id')、$('ul').html()这个cheerio的获取和jquery的获取类似,使用起来很简单,查看它的官方文档即可看懂。。