- 博客(5)
- 收藏
- 关注
原创 Golddata如何采集需要登录/会话的数据?
概要本文将介绍使用GoldData半自动登录功能,来采集需要登录网站的数据。GoldData半自动登录功能,就是指通过脚本来执行登录,如果需要验证码或者其它内容需要人工输入时,可以通过收发邮件来执行登录流程。下载例子为了讲解方便,我们以采集mydict的单词数据来讲解采集需要登录的网站数据。这个mydict例子程序可以从开源网站下载到( https://github.com/TheGoldD...
2019-04-05 19:08:11
243
原创 如何一步到位将级联数据融合到自关联表?
概述在本篇中,将接续上一篇使用GoldData已抓取的省市县这样的级联数据融合到数据库自关联应用表中,也就是将area级联数据集融合到自关联表area中,我们先看级联数据集字段和数据,以及area表结构,如下图所示:这每一条记录与一条父记录存在关联,通常将数据导入这样的表,是个有挑战性的问题,在这里我们将看到如何在GoldData中轻松做到这一点。创建融合映射打开融合管理,选择数据集为...
2019-03-16 16:05:07
534
原创 如何采集级联数据(比如最新省市县)呢?
概述通常抓取级联数数据情况不多,但要是真需要时,确多了一些麻烦,比如抓取商品分类级别信息等。本内容将讲述如何采集无限级联联数据,并以GoldData来抓取2019年最新的省市县三级为示例。创建数据集在数据集管理里,添加数据集area。如下图所示:数据集相当于数据库中的表,只是字段是灵活的,可以随着需要而添加和变更。创建规则在规则管理里,添加规则arearule,并将地址http://...
2019-03-15 13:05:47
626
原创 GoldData将采集数据融合到两张关联关系表
概述在上一期中,我们抓取了新闻数据,现在我们要通过GoldData融合到两张数据库表news_site和news表当中去。如下图所示:我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将接上一期在此一一介绍。定义融合映射数据集news ==> 表news_site在“融合管理”中,选择数据集"news",选择数据库表news_site点击“添加”按扭,然后再点击“...
2019-03-14 11:47:18
210
原创 GoldData学习实例-采集官网新闻数据
概述在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。news_site(新闻来源)字段类型说明idbigint主键,自动增长namevarchar(128)来源名称news(新闻)字段类型说明idbigint主键,自动增长titlevarchar(1...
2019-03-14 11:44:26
293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人