一、下载接口文件
Dedecms5.7免登录接口文件下载:百度网盘 提取码: dneb
没有火车采集的,可以百度搜索一下他们的官网即可
二、安装接口文件
根据自己的织梦网站程序编码,上传接口文件 jiekou.php 到你的【网站后台】目录文件夹
三、配置火车采集
1、导入模块:
打开火车头采集:开始 -》 web发布配置 -》导入模块 -》选择.wpm模块
2、配置web发布管理:
a、选择:DedeCMS 5.7 免登陆接口文章发布模块
b、选择你自己网页编码:
c、网站地址:http://你的网址/dede(你的后台地址)
d、选择【不登录】
e、获取列表:这个时候应该可以正常获得后台所有栏目;
f、定义名称保存
3、配置web发布模块:
a、选择【DedeCMS 5.7 免登陆接口文章发布模块】再点击右上角的铅笔(或者直接双击模块)进入模块编辑界面;
b、进入模块编辑界面,选择【内容发布参数】
c、发布地址后辍:这里要更换成你的【后台账号】;但密码不是后台密码,如果想修改密码,可以打开jiekou.php文件,在191行左右,修改一下密码对应上即可;
d、发布post数据:也就是后台文章发布页里的字段,你可以查看一下当前的字段是否能满足你采集的字段。如果不能满足,你可以自己添加字段,也可以通过第三方软件fiddler抓包工具直接复制自己网站的字段数据(具体操作,可以查看这里的使用教程以及字段说明)注意,如果是小白看到这一步还是不太理解这些字段怎么用,不用急先按步骤走到这,后面会发布采集任务时会有详细说明这一块。
e、好了现在可以保存,下一步,就可以开始新建采集任务;
四、发布采集任务
1、新建任务
2、配置【网址采集规则】
a、起始网址:这里填写采集目标网站的列表页地址;我这里测试用一个列表页做教程,你也可以使用【向导添加】里的批量添加或数据库导入,等一些功能,可以自行尝试这些功能;
b、设置区域:如何设置区域开始和结束,打开你上面填写的【起始网址】,右键选择检查
c、下面通过【检查】后,看到网页代码,再从代码里找到你要采集文章页的所有链接区域(这里需要一定的html知识)
如果是小白就仔细看一下,找到后你要选择一段代码,是网址列表的开始处,并且还是唯一性,目的是为了让采集软件在搜索这段代码时,告诉软件这是开始处的定位,如果你选择的代码在这个页面里有2处或多处都方都出现,这样软件就没办法知道那一处你想要的开始。所以需要唯一性,所以这里你选择的代码,你再用Ctrl+F搜索一下,是不是唯一性,如果不是,你就多选择一些代码,直到确定唯一性;结束代码也是一样。选择后,填写在【设置区域】的开始和结束里;
d、配置完成上面两处的后,可以开始测试一下,点击【网址采集测试】,如果能获得文章页链接,说明这块配置成功;如果无法获取,可能是设置区域有问题
e、完成测试后,可以先命名,保存一下
3、配置【内容采集规则】
a、标签列表:这个就是我们在采集文章时,需要那些字段,来对应发布到我们自己后台的填写字段。比如,一般要要到【文章标题】【文章内容】而这个标签的目的就是,把我们需要采集的东西,按规则写成后台能配置的字段,从而采集自动发布文章;
这也是我上面提到看不懂,可以到这里开始添加自己想要的字段,最的与其关联起来(如果关联在下一个配置发布规则会讲)这里要先确定自己想要采集的内容,定义一个字段;
b、通过上面定义的【标题】的标签的规则配置(我用的是前后截取方法),可以在目标文章页的代码里看到【<title>CSS align-content 属性</title>】这样在采集中【标题】这个标签可以采集到的内容是【CSS align-content 属性】其他标签类同;根据自己的需要添加即可;
c、填写标签和规则后,来测试一下;点击右下角的【测试】(注意,在测试之前,你要填写一个采集目标网站的一个文章网址,来查看测试你的规则是否正确)
下面图来看,获取内容成功;
d、其他功能自行测试即可,这里不过多讲解
4、配置【内容发布规则】
a、打开【内容发布规则】,勾选【显示所有配置】就可以看到你之前保存的所有【web发布配置】,这样勾选需要的web配置
b、勾选后,双击一下,弹出web发布设置界面;先【获取列表】一下,看是否能正常获取到;
c、这个时候就是编辑模块,把前面的标签关联起来;双击编辑模块,选择【内容发布参数】
开始来配置【发布post数据】里面的表单值
d、这个时候,你就可以查看这里的表单名里面的字段,是否满足你之前配置的采集【标签】,如果没有你需要的字段,你可以自己添加字段,也可以通过第三方软件fiddler抓包工具直接复制自己网站的字段数据(具体操作,可以查看这里的使用教程以及字段说明)
e、如何知道上面的表单名与自己的想要采集的字段有没有可以查看下面的【表单字段说明】
比如我在【标签】配置时,有一个【权重】标签,查看【表单字段说明】得到的字段是【weight】而上面的表单名里面没有这个字段,这个时候我需要增加这个字段;
1、点击【添加】-> 2、填写表单名【weight】-> 3、双击【表单值1】> 4、选择右侧【标签】下拉 > 5、选择【标签:权重】
这样就可以增加字段,并关联你的采集标签。其他标签也是按这种方法关联起来;(注意,只有在发布任务里,打开【标签】下拉,才会出现【规则标签】选项,如果你是直接从【web发布配置】里是看不到【规则标签的】)
五、表单字段说明
字段 | 参数 | 说明 |
---|---|---|
channelid | 1 | 频道模型ID,如果发布文章,默认为1 |
dopost | save | 保存按键,不可改 |
title | 文章标题,必填; | |
shorttitle | 简略标题 | |
flags[] | h | 自定义属性: 头条[h] 推荐[c] 幻灯[f] 特荐[a] 滚动[s] 加粗[b] 图片[p] 跳转[j] |
redirecturl | 跳转网址。默认空 | |
tags | TAG标签 | |
weight | 99 | 权重,数字型,越大越靠前(列表模版里使用权重排序才有效) [orderby='weight'] |
picname | 缩略图片路径及文件名 | |
source | 文章来源 | |
writer | 作者【留空即为用户名】 | |
typeid | 发布栏目ID,必填; | |
typeid2 | 副栏目ID | |
keywords | 关键词 | |
autokey | 1 | 自动获取关键字,1为是,0为否 |
description | 内容摘要 | |
dede_addonfields | ||
remote | 1 | 下载远程图片和资源,1为是,0为否 |
ddisremote | 1 | 是否远程获取缩略图片,1为是,0为否,启用本项必须使PICNAME的值为有效图片网址 |
dellink | 1 | 是否删除非站内链接,1为是,0为否 |
autolitpic | 1 | 是否提取第一个图片为缩略图,1为是,0为否,启用本项则picname应留空; |
needwatermarkup | 1 | 图片是否加水印,1为是,0为否 |
needwatermarkdown | 1 | 采集图片是否加水印,1为是,0为否 |
sptype | hand | 分页方式,hand是手动,auto是自动 |
spsize | 5 | 自动分页大小,单位K |
body | 内容,必填; | |
voteid | 1 | 投票模块ID |
notpost | 1 | 是否禁止评论,1为是,0为否 |
click | 666 | 起始浏览次数 |
sortup | 0 | 文章排序方式,0为默认排序,7为置顶一周,30为置顶一个月,90为置顶三个月,180为置顶半年,360为置顶一年 |
color | 标题颜色,格式:#FF0000 | |
arcrank | 0 | 阅读权限,0为开放浏览,-1为待审核稿件,10为注册会员,50为中级会员,100为高级会员 |
money | 0 | 消费点数,数值型 |
pubdate | 发布时间,格式:2025-03-11 15:24:40 | |
ishtml | 1 | 发布选项:1生成HTML、0仅动态浏览 |
filename | 自定义文件名,字符串型。 | |
templet | ||
geturl | 采集单个网页-URL | |
typename | 栏目名称 | |
六、采集栏目名称并自动创建不存在栏目
1、新建标签
a、在采集任务里添加一个栏目名称,并做好获取规则;
2、新建表单名
在表单名新增【typename】表单值选择,标签栏目名称;