【数据采集平台】教程-单页面采集

最新推荐文章于 2025-05-30 16:57:35 发布

原创最新推荐文章于 2025-05-30 16:57:35 发布 · 2.1k 阅读

CC 4.0 BY-SA版权

文章标签：

14 篇文章

订阅专栏

本文介绍了一种单页面采集的方法，适用于采集单个页面上的信息，如文章详情页。通过配置爬虫，设置采集规则，使用css选择器定位html元素，实现高效数据采集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用教程——单页面采集

测试版

采集单个页面。单个页面是指：一个页面中只包含一条采集信息的页面，例如文章详情页面，一个url对应一篇文章信息。

打开“配置中心” > “新建爬虫” > “单页面类型” 菜单，进入爬虫配置界面：

项	是否必填	说明	示例
爬虫名字	是	任意字符，不可与以有的爬虫名称重复	微信文章爬虫
采集源	是	采集的网站名称	微信
源页面	是	要采集的源链接，必须为规范的url	https://baidu.com
匹配开头	是	以该值开头的链接才会被采集	https://baidu.com
最大采集量	是	单个爬虫最大支持采集量为10000	500
线程数	是	一个爬虫所启用的线程数，最大值为3	1
允许JS	否	启用JS可以采集动态网页，但是采集速度将会变慢，默认不启用	不启用
描述	否	任意值，对爬虫的表述	这是一个微信文章爬虫

基本配置完成后，点击“下一步”进行采集规则配置。

项	是否必填	说明	示例
字段code	是	采集字段唯一标识，同一个爬虫中的字段code不可重复	title
字段标题	是	采集字段唯的名称	文章标题
采集规则	是	采集规则，使用css选择器，很重要。	.div > .title
采集类型	是	TEXT：采集文本内容，HTML：采集HTML内容，ATTR：采集属性值，当选择ATTR时，下面的属性值必填	TEXT
属性值	否	当采集类型为ATTR时必填，其他情况不填	href
非空字段	否	是否为非空字段，若是，则当该字段为空时，数据将不会被保存	否
去重字段	否	是否是去重字段，若是则会更具该字段进行去重，重复的数据将不会被保存	否