小说提取器规则

原创已于 2025-01-16 09:32:00 修改 · 961 阅读
8 ·
CC 4.0 BY-SA版权
文章标签：
#aardio
于 2024-10-15 09:24:47 首次发布
Windows 专栏收录该内容
13 篇文章
订阅专栏
//规则更新日期20241015
/*****
	{
		网站网址 = "https://www.haobiquge.net";
		目录提取正则 = `\<dd>\<a href="(.+?)">(.+?)\</a>\</dd>`;
		文章网址前缀 = "https://www.haobiquge.net";
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "content";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {"@</p>","@nbsp;"}; //字符串或数组
		下一页网址提取正则 = `\<a id="A3" href="(\S+?)" target="_top" class="next">下一[页|章]\</a>`;
		下一页网址前缀 = "https://www.haobiquge.net";
		正文标题提取正则 = `\<div class="bookname">\s*?\<h1>(.+?)\</h1>`;
	},
	{
		网站网址="https://www.qu70.cc/";
		目录提取正则 = `\<dd>\<a href ="(.+?)">(.+?)\</a>\</dd>`;
		文章网址前缀 = "https://www.qu70.cc/";
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "chaptercontent";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {"@请收藏本站：https://www.qu70.cc。", //字符串或数组
							"@笔趣阁手机版：https://m.qu70.cc",
							"@『点此报错』",
							"@『加入书签』"
							};
		下一页网址提取正则 = `\<a href="(\S+?)" id="pb_next" class="Readpage_down js_page_down">下一[页|章]\</a>`;
		下一页网址前缀 = "https://www.qu70.cc";
		正文标题提取正则 = `\<div class="content">\s+?\<h1 class="wap_none">(.+?)\</h1>`;
	},
	{
		网站网址 = "https://www.ybsf.org";
		目录提取正则 = `\<dd>\<a href="(.+?)">(.+?)\</a>\</dd>`;
		文章网址前缀 = "https:";
		文章正文div的id = "content";
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {}; //字符串或数组
		下一页网址提取正则 = `\<a href="(\S+?)">下一章\</a>`;
		下一页网址前缀 = "https:";
		正文标题提取正则 = `\<a name="top">\</a>\s+?\<h1>(.+?)\</h1>`;			
	},
	{
		网站网址 = "https://www.disanzww.com";
		目录提取正则 = `\<li>\<a style="color\:Gray;" href="(.+?)">(.+?)\</a>\</li>`;
		文章网址前缀 = "https://www.disanzww.com";
		文章多页网址替换文本 = {".html","_2.html"};		
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "content";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {"@</p>"}; //字符串或数组
		下一页网址提取正则 = `\<a id="next_url" href="(\S+?)">`;
		下一页网址前缀 = "https://www.disanzww.com";
		正文标题提取正则 = `\<h1 class="title">(.+?)\</h1>`;
	},
	{
		网站网址 = "https://m.baode.cc";
		目录提取正则 = `\<li>\<a href="(.+?)" title="(.+?)" `;
		文章网址前缀 = "https:";
		文章多页网址替换文本 = {".html","_2.html"};
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "nr";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {"@</p>"}; //字符串或数组
		下一页网址提取正则 = `\<a class="dise" href="(\S+?)">下一[章|页]\</a>`;
		下一页网址前缀 = "https:";
		正文标题提取正则 = `\<div class="zhong">(.+?)\</div>`;		
	},
	{
		网站网址 = "https://www.skjvvx.cc";
		目录提取正则 = `\<dd>\<a href ="(.+?)">(.+?)\</a>\</dd>`;
		文章网址前缀 = "https://www.skjvvx.cc";
		文章多页网址替换文本 = {".html"};
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "content";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {"@app2();", //字符串或数组
							"\(https\://www\.skjvvx\.cc/a/15/15225/\d+?\.html\)",
							"@chaptererror();",
							"@先定个小目标，",
							"@比如1秒记住：",
							"@www.skjvvx.cc",
							"@书客居手机版阅读网址：",
							"@m.skjvvx.cc"
							}
		下一页网址提取正则 = `\<a href="(\S+?)">下一章\</a>`;
		下一页网址前缀 = "https://www.skjvvx.cc";
		正文标题提取正则 = `\<div class="content">\s*?\<h1>(.+?)\</h1>`;
	},
	{
		网站网址 = "https://www.bageddd.com";
		目录提取正则 = `\<dd>\<a href="(.+?)">(.+?)\</a>\</dd>`;
		文章网址前缀 = "https:";
		文章多页网址替换文本 = {".html"};
		文章正文换行符号正则 = {"@<p>","@<br>","@<br />"};//字符串或数组
		文章正文div的id = "content";
		文章正文段前空格文本 = "　　";
		文章内容忽略文本正则 = {}
		下一页网址提取正则 = `\<a href="(\S+?)">下一章\</a>`;
		下一页网址前缀 = "https:";
		正文标题提取正则 = `\<div class="bookname">.+?\<h1>(.+?)\</h1>`;
	}
	*****/