web-harvest 采集"腾讯读书“ 小说

最新推荐文章于 2022-05-19 13:54:27 发布

原创最新推荐文章于 2022-05-19 13:54:27 发布 · 置顶 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#读书 #腾讯 #action #string #encoding #path

webharvest 专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何利用web-harvest工具从网站批量下载长篇小说内容，并将其保存为TXT格式文件。通过配置XML文件，实现自动化采集，最终在不到48秒内完成111章节小说的下载与保存。

web-harvest 是啥就不做介绍了，采集火影漫画的里面有下载链接。

http://blog.youkuaiyun.com/wind_324/article/details/6271412

样例抓取的是郭敬明的《1995-2005夏至未至》，简单看了下其他书籍的格式，基本上可以通用采集book.qq.com（未测试）。

废话少说，下面看配置文件。

<?xml version="1.0" encoding="GB2312"?>

<!-- Extract novel "Rush to the Dead Summer,1995-2005" from book.qq.com) -->

<config charset="GB2312">
	<!-- 1. Init variables. -->
	<var-def name="baseUrl"><template>http://book.qq.com/s/book/0/5/5348/</template></var-def>
	<var-def name="maxloops">111</var-def>
	<!--<var-def name="nextXPath">//div[@id='TextInfo']/div[@id='pageList']/a[2]/@href</var-def>-->
	<var-def name="itemXPath">//div[@id='content']/text()</var-def>
	<var-def name="chapterTitle">//div[@id='TextInfo']/h1/text()</var-def>
	
	<!-- 2. Start to extract content of each chapter from web page. -->
	<while condition="${baseUrl.toString().length() != 0}" maxloops="${maxloops}"
		index="i">
		
		<!-- Set variable pageUrl with new value. -->
		<var-def name="pageUrl">
			<!-- <template>${nextLinkUrl.toString()}</template> -->
			<template>${baseUrl.toString()}${i}.shtml</template>
		</var-def>
			
		<empty>
			<!-- Crawl content from pageUrl. -->
			<var-def name="content">
			<!-- omitunknowntags="true" -->
				<html-to-xml outputtype="pretty" specialentities="true" omitcomments="true" treatunknowntagsascontent="true" prunetags="head,script,style,select,li,table,form,br">
					<http url="${pageUrl}" />
				</html-to-xml>
			</var-def>
			<!-- Analyze & get the next link URL. -->
			<!-- <var-def name="nextLinkUrl">
				<xpath expression="${nextXPath}">
					<var name="content" />
				</xpath>
			</var-def> -->
			<var-def name="title">
				<xpath expression="${chapterTitle}">
					<var name="content" />
				</xpath>
			</var-def>
			<!-- Extract content of chapter from current page. -->
			<var-def name="chapterContent">
				<xpath expression="${itemXPath}">
					<script return="n_content.toString()"><![CDATA[
						n_content = content.toString().trim().replace("\t","").replace("。　　","。\r\n");
						//content = content.replace("<br />","\r\n");
	        		]]></script>
				</xpath>
			</var-def>
			
			<!-- output to txt files -->
			<file action="write" type="String" path="E:/Books/Rush_to_the_Dead_Summer_1995-2005/${title.toString()}.txt">
				<template>${title.toString().trim()} ${sys.lf}
				          ${chapterContent.toString().trim()} ${sys.lf} ${sys.lf}
				          Extracted from : ${pageUrl.toString()}
				</template>
			</file>
			<!-- debug -->
			<!--<file action="write" type="String" path="E:/Books/Rush_to_the_Dead_Summer_1995-2005/page_${i}.xml">
				<template>${content.toString()}</template>
			</file>-->
		</empty>
	</while>

</config>

程序执行时间：INFO - Configuration executed in 47166ms. 也就是48秒下完一部111章的小说，速度还算理想。

下面是结果截图