casperJs爬虫程序[2] - 抓取优酷视频作者视频信息的实现

最新推荐文章于 2024-12-24 21:12:24 发布

扑满猪

最新推荐文章于 2024-12-24 21:12:24 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： casperjs 文章标签： javascript 爬虫

本文链接：https://blog.youkuaiyun.com/u012577500/article/details/18187465

casperjs 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种用于抓取优酷网站上Dota视频信息的爬虫实现方案，包括生成链接、抓取视频详情及保存数据到数据库等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

// create links should be hamstersed
function swallow(opts) {
	var fs = require("fs");
	var dict = JSON.parse(fs.read("./makers/dotaMaker.json"));
	var arr = [];
	dict.forEach(function(mi, i) {
		var url = "http://i.youku.com/u/" + mi.code + "/videos";
		arr.push(url);
	});
	opts.urlArr = arr;
}

// fetch
// sandbox
function hamsters(db) {

	return getVideoDetail();

	function getVideoDetail() {
		var rst = [];
		var fetchNode = function(node) {
			var title = node.find("li.v_title a").attr("title");
			var link = node.find("li.v_link a").attr("href");
			var thumb = node.find(".v_thumb img").attr("src");
			var ishd = node.find(".v_ishd span").attr("title");
			var time = node.find(".v_time .num").text();
			var pub = node.find(".v_pub span").text();
			var viewCount = node.find(".v_stat .num:eq(0)").text();
			var commentCount = node.find(".v_stat .num:eq(1)").text();
			var item = {
				title: title,
				link: link,
				thumb: thumb,
				ishd: ishd,
				time: time,
				pub: pub,
				viewCount: viewCount,
				commentCount: commentCount

			};
			return item;
		};
		var nodes = $(".items ul.v");
		nodes.each(function(i, n) {
			rst.push(fetchNode($(this)));
		});
		return rst;
	}
};

// save data
function bear(opts) {
	// 把所有的数组联合成一个数组
	var data = Array.prototype.concat.apply([], opts.data);
	var db = opts.db;


	var transData = require("../lib/transData");

	data.forEach(function(ii, i) {
		var item=transData(ii);
		if (!db({
			title: item.title
		}).first()) {
			db.insert(item);
		}
	});


}

module.exports = {
	// 生成要被fetch的links
	swallow: swallow,
	// 在links中抓取数据
	hamsters: hamsters,
	// 按照一定格式写入数据库
	bear: bear

};

继续上期,以上是抓取优酷dota视频作者的视频信息的实现