nodejs 采集

var http = require("http");
var fs   = require("fs");
var cheerio = require("cheerio");

function downloadText(doc){
    var $ = cheerio.load(doc);

    $(".content").each(function(idx,obj){
        fs.writeFile('1.txt','',function(err){
            if (err) throw err;
            fs.appendFile('1.txt',$(obj).text());
            fs.appendFile('1.txt',"\r\n");
			console.log($(obj).text());
			console.log("\r");
        });
    });

    $(".thumb").find("img").each(function(idx,obj){
        var src = $(obj).attr("src");
        if(/pic.xxxxx.com/.test(src)){

            http.get(src, function(res) {
                res.setEncoding('binary');
                var imageData ='';
                res.on('data',function(data){
                    imageData += data;
                }).on('end',function(){
                    var imageName = src.substr(src.length-12,12);
                    fs.writeFile('images/'+imageName, imageData, 'binary', function (err) {
                        if (err) throw err;
                        console.log('图片已保存');
                    });
                });
            }).on('error', function(e) {
                console.log("Got error: " + e.message);
            });
        }
    });
}

function start(){

    http.get({hostname:'www.xxxxx.com', port:80, path:'/', headers:{"User-Agent":"Mozilla\/5.0 (Windows NT 6.1; WOW64) AppleWebKit\/537.36 (KHTML, like Gecko) Chrome\/38.0.2125.104 Safari\/537.36"}}, function (res) {
        var html = "";
        res.on('data',function(data){
            html += data;
        }).on('end',function(){
            downloadText(html);
        });
    })
}

 
start();




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值