
答疑
文章平均质量分 73
雨霖铃儿
这个作者很懒,什么都没留下…
展开
-
爬数据时干等结果?有人已经在采集时把数据处理了
很多同学做好爬虫后,就开始等待采集结束,然后对数据进行统一分析处理。但其实高效的大数据技术,在数据采集的过程中就可以进行数据处理。因此找到一款可以在数据采集的同时进行数据处理的爬虫软件非常重要,可以实现在采集的同时对数据进行以下处理:1.数据挖掘数据挖掘是对数据中的大量行业数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性信息的过程。数据一般可分为两种:①结构化数据结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系原创 2022-04-18 16:42:19 · 2042 阅读 · 0 评论 -
一分钟带你了解分布式集群采集
数据采集一般可分为两种:集中式数据采集和分布式数据采集。我们通常所说的采集某个或某些平台上的数据一般属于集中式采集,指的是一个爬虫采集一个或多个网站的情况。那么什么是分布式集群采集呢?在此之前我们先来了解什么是分布式。举个例子:你开发一个网站想要别人访问,这就需要把网站部署到服务器上,如下图所示:当网站用户增多的时候,原来部署的服务器就不满足需求了。这时就需要把网站部署到各个服务器上,如下图所示:这种情况我们称之为:集群,即把整个网站的所有原创 2022-03-31 16:57:52 · 3694 阅读 · 0 评论 -
前嗅forespider---关键词采集【检索结果】
如何采集关键词检索结果,今天前嗅大数据就以古诗文网为例为大家演示,话不多说一起看看吧。一.网站内容1.网站截图说明本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85Step1:在官网输...原创 2019-12-16 14:31:05 · 950 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:扩展对象(一)
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:表单操作类schema,采集管理类extractor,采集频道类channel,以及频道模板类tmplTmpl。具体内容如下:一.表单操作类schemaschema类为表单操作类。1.类成员:2.成员方法:二.采集管理类extractorextractor类为采集引擎...原创 2019-03-25 15:20:35 · 406 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:扩展对象(二)
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下:一.链接抽取类tmplLinktmplLink类为ForeSpider模板的链接抽取操作类。用于控制模板的链接抽取操作。1.类成员:2.成员方法:二.链...原创 2019-03-25 15:25:39 · 458 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:频道脚本
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的频道脚本。频道脚本是频道配置中的脚本, 如果配置了频道脚本,该频道的所有采集流程将被配置的脚本所接管。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extractor]DATADB:当前连接的数据库[ 对象类型:dataBase]RESULT:当前结果集对象[ 对象类型:...原创 2019-03-25 15:32:26 · 328 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:基本语句
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基本语句。内容包括:顺序语句,条件语句,循环语句,开关语句和返回语句。1.顺序语句ForeSpider脚本语法规则类似JavaScript、C++等标准语言,每一条语句用分号隔开,例如:x = 1; y =2; z=x+y;或者,一行一条语句,例如:x=1y=2z = x+y多个变量声明之间可...原创 2019-03-13 17:57:52 · 416 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:运算符与运算顺序
今天小编为大家介绍的是:前嗅ForeSpider脚本中的运算符和运算顺序,具体内容有:脚本支持的运算符、运算顺序、运算级别以及默认类型转换顺序。一.ForeSpider脚本支持的运算符1.一般运算符:2.比较运算符:3.赋值运算:4.自增自减运算:5.移位运算:二.运算顺序与运算级别ForeSpider脚...原创 2019-03-13 18:04:18 · 316 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:模板脚本
链接脚本是频道的模板中的脚本。配置了模板脚本,模板的处理流程将被改变:1.如果脚本未正确返回dom区域节点,则该模板的采集则完全由该脚本控制。2.如果脚本返回了一个正确的dom区域节点,则该模板的所有流程(链接抽取或数据抽取)都以该区域节点为基准,区域外的信息和数据将优先作为垃圾数据处理。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extrac...原创 2019-03-26 09:36:10 · 1033 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:标准对象(二)
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:采集文档类grabDoc,采集记录集类result,JavaScript操作类jScript、KeyForm操作类KeyForm,html标签属性类domAttr以及keySearch操作类keySearch。具体内容如下:一.采集文档类grabDocgrabDoc类为ForeSpider网页(或文件)的采集文...原创 2019-03-20 18:35:51 · 462 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:标准对象(一)
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:爬虫链接类url,urltext采集的所有状态及属性类,html标签节点类domItem和(html)dom类dom。具体内容如下:一.爬虫链接类urlurl类为ForeSpider采集链接地址类,描述了一个链接地址及如何采集的相关属性和操作。常用的属性是:urlname, title, entryid,...原创 2019-03-20 18:30:02 · 1398 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:基础对象(三)
今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容包括:记录类record,记录集类records,数据表类dataTable,dataInRet类。具体内容如下:一.记录类recordrecord类为数据记录类。1.类成员:2.成员方法:二.记录集类recordsrecords类为数据记录集类,...原创 2019-03-20 18:24:31 · 200 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:基础对象(二)
今天,小编给大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容有:数组类array、键值对类hash、文件类file、字段操作类field。具体内容如下:一.数组类arrayarray类为数组类。1.类成员2.成员方法3.脚本应用如果在导航栏的采集预览中找到多个栏目,我们需要的个别栏目在爬虫的链接过滤中很难得到的时候。那...原创 2019-03-20 18:14:08 · 551 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:脚本概述
本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:一.ForeSpider脚本结构ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格类似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操作,函数,数组...原创 2019-03-11 11:15:32 · 667 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:基础对象(一)
今天,小编为大家介绍一下:前嗅ForeSpider脚本中的基础对象。主要内容有:基础对象var、字符串string、数字类number、时间类time。具体内容如下:一.基础对象varvar类为基本类,任何一个变量或常量都是var类,任何其他的对象类都派生域var类。1.类成员2.成员方法二.字符串stringstring类为...原创 2019-03-14 11:24:16 · 316 阅读 · 0 评论 -
前嗅ForeSpider教程:运行设置(二)
今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的网络超时,HTTP设置,加载设置,任务模式,这四大模块。具体内容如下:一,网络超时【网络超时】1.接收超时当对方服务器繁忙时,可将接收超时的时间调大,否则软件在超时后将不再接收该链接地址的数据。2.发送超时当采集的数据量过大时,可以将发送超时的时间调大。3.重试次数网...原创 2019-03-04 09:38:08 · 605 阅读 · 0 评论 -
前嗅ForeSpider教程:IP代理设置
今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分。具体内容如下:一,启用IP代理启用IP代理采集时,需要进行代理配置。1.启用IP代理需选中“启用IP代理”,才能启用IP代理功能。【启用代理IP】2.启用代理加速启用代理加速后,可以在采集过程中自动筛选无...原创 2019-03-06 10:05:17 · 1638 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:频道脚本使用场景及配置关键词搜索
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本的应用场景以及脚本配置关键词搜索的实战教程。具体内容如下:一.频道脚本使用场景当需要手动创建采集源列表,或者完全使用脚本采集数据时,在“频道脚本”处,你可能用到的类为extractor、result。你可以定义类的对象来使用其成员方法,也可以使用EXTRACT、RESULT两个全局对象。关于这两个...原创 2019-04-04 09:42:18 · 678 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:链接脚本
链接脚本是链接抽取中的脚本。配置了链接脚本,链接的抽取流程将被改变:1.如果脚本未正确返回dom区域节点,则该链接抽取的规则将完全由该脚本控制。2.如果脚本返回了一个正确的dom区域节点,则此链接抽取以返回的区域节点为基准,区域外的链接将被过滤掉。一.可用全局对象(只读)EXTRACT: 当前采集引擎[ 对象类型:extractor]DATADB: 当前连接的数据库[...原创 2019-03-27 09:32:35 · 627 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:链接过滤脚本
链接过滤脚本是地址和标题过滤中的脚本, 过滤类型必须选择脚本过滤时过滤脚本才能生效,过滤脚本用于处理复杂的链接或标题过滤需求。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extractor]DATADB:当前连接的数据库[ 对象类型:dataBase]RESULT:当前结果集对象[ 对象类型:result]URL:当前采集的...原创 2019-03-28 10:09:32 · 236 阅读 · 0 评论 -
辟谣 | 爬虫软件真的可以获取隐私数据?真相只有一个
很多用户把隐私泄露的缘由归咎于爬虫软件,认为爬虫软件可以采集一切内容。其实,这种思维是错误的,爬虫只能采集互联网的公开数据,任何隐私数据均无法实现采集。本文会为大家纠正这种错误观念,并提供一些良好的保护自我数据隐私的方式。阅读时间大概为6分钟原创 2019-09-24 18:00:18 · 11321 阅读 · 1 评论 -
前嗅教程:如何获取精准客源,提高销量
经常有人问嗅嗅,我是XX行业的,大数据能帮我做什么?可以给我带来客源吗?可以提高我的销量吗?可以增加我的利润吗?今天嗅嗅就以生鲜供货为例,为大家讲一讲外卖平台那些事~生鲜供货的客源除线下餐馆之外,随着外卖平台的兴起,外卖平台中的餐馆也很明显的构成了庞大的线上客源群体。这个庞大的客源有一个共同的特点—信息公开,包括餐厅名称、餐厅地址、联系方式等等。更重要的是,可以通过外卖平台精准定位所在城市...原创 2019-04-23 09:24:56 · 2870 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-链接过滤脚本
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下:一.应用场景当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。可能用到的类是:string,使用到的全局对象是VALUE。二.地址过滤场景:链接地址有规律。示例:可视化配置百度搜索之后的链接抽取,过滤掉不是列表链接和翻页链接的所有链接。脚本实例...原创 2019-04-15 09:50:10 · 773 阅读 · 0 评论 -
【技术干货】老程序员亲绘漫画:1分钟读懂Session会话机制
昨日说起前嗅是996中的一股清流,可是前嗅没火,大师和圆仔却一夜之间就火了?很多人纷纷留言,要看这俩人互怼、讲故事其实,程虚圆和宫成师的原型真的来源于前嗅,漫画的前身为公司的老程序员和小实习生。老程序员经验丰富,小实习生积极认真,老程序员为了尽快把“圆仔”领进门,开始大开脑洞亲绘漫画,讲解技术干货。如大家所想看到的,俩人今天又开战了。大师:最近技术有进步吗?...原创 2019-04-26 15:34:53 · 406 阅读 · 1 评论 -
前嗅ForeSpider脚本教程-链接抽取:链接在源码的js变量里写脚本
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在源码的js变量里写脚本的实战教程。具体内容如下:链接地址可在源码中查找到。在目标网页右键,选择“查看源代码”,键盘点击“ctrl+F”,查找目标链接所在位置。目标链接存在于js变量中。1.链接需要循环场景:要抽取的一组链接都在源码中出现,集中分布。示例:获取今日头条热点新闻列表页链接查看列表...原创 2019-04-10 09:55:58 · 668 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-数据抽取脚本实战教程
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-数据抽取脚本实战教程的,应用场景,数据在源码的html标签里写脚本。具体内容如下:一.应用场景当所需要的数据字段大部分需要配置脚本时,可将所有字段的抽取统一放在数据抽取脚本中。可能用到的类:DOM、EXTRACT。配置方法:选中数据抽取,点击“脚本窗口”,点击创建按钮。即可在新建的代码框内输入代码。二....原创 2019-04-16 13:10:21 · 1376 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-链接抽取:自定义链接写脚本
场景:当采集的链接不存在于任何位置,或者想要采集自定义的链接。示例:天猫商品评论的链接。商品评论的链接不在源码中,只能自己拼接评论链接。点击评论翻页,观察翻页规律。取其中某一链接地址在网页中查看请求返回信息。删除个别不一致的请求参数,观察结果是否变化。可得到最简链接地址。https://rate.tmall.com/list_detail_rate.htm?itemId=566...原创 2019-04-12 16:51:58 · 357 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-链接抽取:链接在POST请求里写脚本
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在POST请求里写脚本的实战教程。具体内容如下:当链接地址在源码中不存在,存在于post请求中时,需要使用浏览器的开发者工具来查找链接数据。1.链接需要循环场景:一组链接存在于JSON的某个数组中。示例:采集豆瓣电影,列表页的电影链接。查看源文件可知,源文件中只有一部分数据,而...原创 2019-04-12 16:50:22 · 628 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中,链接抽取的应用场景,以及链接在源码的html标签里写脚本的实战教程。具体内容如下:一.应用场景当需要手动添加链接时,可添加链接脚本。在“链接脚本处”,可能用到的类为extractor 、result、url、grabDoc、dom。二.链接在源码的html标签里链接地址可在源码中查找到。在目标网页右键,选择“查看...原创 2019-04-09 09:39:50 · 786 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:字段处理脚本
字段处理脚本用于清洗字段的取值。点击某个字段后,在字段处理的下拉菜单中选择脚本处理后,需要配置的脚本。这一步是通过脚本进一步清洗获取的数据。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extractor]DATADB:当前连接的数据库[ 对象类型:dataBase]RESULT:当前结果集对象[ 对象类型:result]URL...原创 2019-04-03 09:29:06 · 736 阅读 · 0 评论 -
前嗅ForeSpider脚本教程-频道脚本:脚本采集数据
今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本,脚本采集数据的实战教程。具体内容如下:一.场景此处为高手操作,配置的频道脚本接管所有采集流程,无需再做任何配置。二.示例获取下图商品的评论。三.脚本实例var gdoc = EXTRACT.OpenDoc(this,"http://product.dangdang.com/index...原创 2019-04-08 14:13:40 · 907 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:数据抽取脚本
数据抽取脚本与数据过滤并列的脚本,它的作用是对抽取的数据进行过滤。数据处理脚本是数据抽取中的脚本。点击“数据抽取”节点,在“数据脚本”的下拉菜单必须选择“数据抽取脚本”。配置了数据处理脚本,数据的抽取流程将被改变:1.如果脚本未正确返回dom区域节点,则该数据抽取的规则将完全由该脚本控制。2.如果脚本返回了一个正确的dom区域节点,则此数据抽取以返回的区域节点为基准,区域外的数据则优先当做...原创 2019-03-29 09:36:32 · 533 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:字段取值脚本
字段取值脚本是字段的取值类型选择脚本取值时,需要配置的脚本。这一步是通过脚本来获取字段的填充值。注意:一旦有了字段取值脚本,则字段处理脚本将失效。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extractor]DATADB:当前连接的数据库[ 对象类型:dataBase]RESULT:当前结果集对象[ 对象类型:result]...原创 2019-04-02 09:41:21 · 980 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:数据过滤脚本
数据过滤脚本与数据抽取脚本并列的脚本,它的作用是对抽取的数据进行过滤。注意:一旦有了数据过滤脚本则数据抽取脚本将失效,即“数据处理” 下拉菜单必须选择“数据过滤脚本”。一.可用全局对象(只读)EXTRACT:当前采集引擎[ 对象类型:extractor]DATADB:当前连接的数据库[ 对象类型:dataBase]RESULT:当前结果集对象[ 对象类型:resu...原创 2019-04-02 09:37:36 · 586 阅读 · 0 评论 -
前嗅ForeSpider脚本教程:变量申明及引用
今天,小编为大家介绍前嗅ForeSpider脚本中的语法规则——变量申明及引用。在此之前先为大家介绍一下,语法规则中的注释和标准常量,具体内容如下:一 .注释ForeSpider脚本的注释类似于C++及JavaScript。通常有两种方式:单行注释和块注释。1.单行注释//这是行注释2.块注释/*这是块注释这是块注释这是块注释这是块注释*/二.标准常量NULL...原创 2019-03-08 14:07:26 · 371 阅读 · 0 评论 -
前嗅ForeSpider教程:验证码设置
当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置。今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置。具体操作如下:当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。当我们点采集预览时,就会弹出一个验证码的输入框,只有输入验证码才能浏览数据。【验证码弹出框】【输入验证码后采集预览结果】验证码设置的...原创 2019-03-08 13:54:52 · 1502 阅读 · 0 评论 -
前嗅ForeSpider教程:采集优快云
上周小编介绍了如何采集360问答,今天小编再来为大家演示一下,如何采集优快云论坛,同样适用于所有的自媒体论坛。 第一步:新建任务①点击左上角“加号”新建任务,如图1: ②在弹窗里填写采集地址,任务名称,如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前列表页博文的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链...原创 2019-01-25 16:40:09 · 1952 阅读 · 0 评论 -
前嗅ForeSpider教程:采集360问答
今天,小编来教大家如何采集论坛自媒体类网站的数据,以采集360问答为例,为大家进行演示操作,该操作同样适用于其他类似网站:第一步:新建任务①点击左上角“加号”新建任务,如图1:②弹窗里填写采集地址,任务名称,开启手动登录配置,如图2:若未在此处开启登录配置,可在模板抽取配置中点击相应的模板,开启登录配置,如图3。③点击下一步,选择进行数据抽...原创 2019-01-25 16:21:04 · 2681 阅读 · 0 评论 -
前嗅ForeSpider教程:采集新浪新闻
最近后台有很多童鞋问怎么采集新闻,今天小编以采集新浪新闻为例,来为大家进行演示,同样适用于其他新闻网站的采集,具体操作如下: 第一步:新建任务①点击左上角“加号”新建任务,如图1: ②在弹窗里填写采集地址,任务名称,如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前列表页新闻的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,...原创 2019-01-25 15:51:24 · 1432 阅读 · 0 评论 -
前嗅ForeSpider教程:采集图片/视频/资源文件的链接地址
昨天为大家介绍了如何采集图片/视频/资源文件后,有小伙伴问我如何采集他们的链接地址,今天小编就为大家演示如何采集图片/视频/资源文件的链接地址,操作如下: 第一步:新建任务①点击左上角“加号”新建任务,如图1: ②在弹窗里填写采集地址,任务名称如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集所有页面的图片,图片链接是通过点击图片列表链接进入...原创 2019-01-25 15:46:48 · 3701 阅读 · 0 评论