phantomJS区域截图及保存文本的简单例子

最新推荐文章于 2023-12-11 11:09:01 发布

原创

最新推荐文章于 2023-12-11 11:09:01 发布 · 4.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#phantomJS #截图 #区域 #文本 #保存

本文介绍了如何利用PhantomJS实现网页的区域截图功能，并展示了如何选取特定DOM元素获取文本内容并保存。以csdn博客首页为例，提取了第一篇博客的截图和标题，详细说明了截图的坐标设置方法和文本选择策略。

phantomJS区域截图只需要指定截图的上，左的起始位置，以及截图的宽高即可。

文本的处理，只需要在page.evaluate()函数中，通过dom选择器，选择到需要输出的文字内容即可，同时也可以写入本地文件中。

以csdn博客首页为例，来进行一个简单的截图和文本提取，比如需要首页的第一篇博客的截图和标题，代码如下：

var page = require('webpage').create();
var fs = require('fs');
//要打印的url地址
var address = 'http://blog.youkuaiyun.com/';
//存储文件路径和名称
var outputPng = './csdn/img.png';
var outputTxt = './csdn/data.txt'
//设置长宽
page.viewportSize = { width: 1280, height: 800 };

page.open(address, function(status) {
	if(status !== 'success') {
		console.log('Unable to load the address!');
		phantom.exit();
	} else {

		//截图的偏移和宽高
		page.clipRect = {
			top: 186,
			left: 101,
			width: 855,
			height: 207
		};

		text = page.evaluate(function() {
			var title = document.getElementsByClassName('blog_list_wrap')[0]
						.getElementsByClassName('csdn-tracking-statistics')[0].getElementsByTagName('a')[0].innerText;
			return title;
		});
		//此文本可以通过phantomjs指令输出到文件
		console.log("获得的分类统计