
数据采集
文章平均质量分 78
雨霖铃儿
这个作者很懒,什么都没留下…
展开
-
【从零开始学爬虫】采集全国各行业经销商网点数据
本视频主要介绍了如何用ForeSpider采集全国各行业经销商网点数据,字段:名称、地址、电话、代理品牌、简介。原创 2023-07-27 15:05:42 · 1469 阅读 · 0 评论 -
【从零开始学爬虫】采集全国各地历年房价数据
采集58同城全国各地历年房价数据原创 2023-07-14 17:12:36 · 1448 阅读 · 0 评论 -
【从零开始学爬虫】模板的高级选项
模板的高级选项原创 2023-01-06 17:49:58 · 445 阅读 · 0 评论 -
如何创建模板
从网站入口页到目标数据页,一共需要跳转几层不同网页结构的页面,通常就需要几层模板。原创 2023-01-06 17:48:45 · 1018 阅读 · 0 评论 -
【从零开始学爬虫】采集食品行业最新报价数据
采集字段:食品行业的标题、内容,发布时间最新报价基本数据原创 2023-01-06 10:17:05 · 698 阅读 · 1 评论 -
数据报告 | 美国民众健康状况和医疗需求研究报告
一文带你快速了解美国民众健康状况和医疗需求原创 2022-12-30 14:32:52 · 1109 阅读 · 0 评论 -
【从零开始学爬虫】采集全国高校导师数据
采集字段:高校名、导师名、简介、手机号、邮箱原创 2022-12-28 15:49:01 · 1363 阅读 · 0 评论 -
房产|1-11月份全国房地产开发投资下降9.8%
房地产投资增速一路下滑,“国房景气指数”难景气原创 2022-12-17 21:56:04 · 337 阅读 · 0 评论 -
【从零开始学爬虫】采集收视率排行数据
采集字段:标题、发布时间、排行内容原创 2022-12-15 23:06:05 · 641 阅读 · 0 评论 -
【数据分析】疫情对美国民众消费的影响研究报告
一文快速了解疫情对美国民众消费行为的影响原创 2022-11-22 16:47:28 · 685 阅读 · 0 评论 -
居民消费价格指数变化新鲜出炉,这类商品同比涨幅最大
数据分析丨用数据解剖民生,深度还原2022年10月份居民生活消费状态原创 2022-11-15 16:44:29 · 378 阅读 · 0 评论 -
汽车报告丨分析了比亚迪宋全网口碑,我们得出这个结论
专业的数据分析丨精准复盘比亚迪宋系列销售情况原创 2022-10-18 09:55:32 · 1147 阅读 · 0 评论 -
大数据揭秘丨疫情影响下亚马逊女性夹克的逆袭之旅
用数据讲故事丨采集海外电商数据,深度还原跨境贸易市场情况。原创 2022-09-27 10:49:57 · 887 阅读 · 0 评论 -
【中秋福利】大数据告诉你:今年中秋礼品这样选
硬核的数据采集与算法分析,列出了今年最佳中秋礼品清单原创 2022-09-06 19:26:48 · 967 阅读 · 0 评论 -
爬虫总是断?用这个手残党也能轻松解决网站反爬
在使用爬虫的过程中,这些情况你是否遇到过?没采多久就采集不到数据了采集了好半天,最后发现采集的内容与网页中的内容不一致刚开始采集的好好的,再往后采集的数据有字段竟然是空的这些情况都是由于采集的网站有反爬策略导致的。l网站反爬原理网站反爬,其原理是服务器通过访问者请求中夹带的一些访问者的信息,来识别访问者,并对访问者进行限制。比如服务器通过请求识别到访问者IP,对同一个IP访问频率做出了限制,那么当同一个IP访问频率超过限制时,访问就会出现问题。l常见的网站反爬..原创 2022-05-19 16:37:58 · 1208 阅读 · 0 评论 -
前嗅教你大数据:采集东方财富网数据
l 采集场景【场景描述】采集东方财富网行情中心沪深京A股数据。【使用工具】前嗅ForeSpider数据采集系统,免费下载:ForeSpider免费版本下载地址l采集网站【入口网址】http://quote.eastmoney.com/center/gridlist.html#hs_a_board【采集内容】采集行情中心沪深京A股中的所有数据。【采集效果】如下图所示:l采集思路l配置步骤1.新建采集任务选择【采集配置】,点击任务...原创 2022-01-26 11:21:25 · 3719 阅读 · 0 评论 -
前嗅教你大数据:采集带有翻页结构的网页数据
数字翻页、下一页、瀑布流翻页数据采集原创 2022-01-14 16:32:52 · 1039 阅读 · 0 评论 -
前嗅教你大数据:采集孔夫子旧书网
本教程主要介绍了如何采集孔夫子旧书网数据。原创 2022-01-13 17:36:09 · 2042 阅读 · 0 评论 -
采集腾讯新闻数据
使用爬虫工具批量采集腾讯新闻数据。原创 2022-01-04 11:39:19 · 1115 阅读 · 0 评论 -
采集招标网所有招标数据
l采集网站【场景描述】采集招标网上的所有的招标数据。【源网站介绍】招标网是招标采购领域的招投标资讯和招投标服务平台,为各级政府采购、招标代理机构、招标企业、供应商、采购业主提供强大的专业招标采购信息查询和相关招投标服务。【使用工具】前嗅ForeSpider数据采集系统,免费下载:ForeSpider免费版本下载地址www.forenose.com/view/forespider/view/download.html【入口网址】http://www.bidchance.com/c.原创 2021-09-28 11:47:09 · 757 阅读 · 0 评论 -
【从零开始学爬虫】采集B站UP主数据
l采集网站【场景描述】采集B站动漫分类中所有UP主数据。【源网站介绍】B站,全名哔哩哔哩,英文名称:bilibili,https://www.bilibili.com/v/channel/type/1,现为中国年轻世代高度聚集的文化社区和视频平台,该网站于2009年6月26日创建,被粉丝们亲切地称为“B站”。【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载http://www.forenose.com/view/forespider/view/downlo...原创 2021-09-06 18:38:25 · 4266 阅读 · 0 评论 -
【从零开始学爬虫】通过新浪财经采集上市公司高管信息
l采集网站【场景描述】采集新浪财经所有行业板块中上市公司的高管信息。【源网站介绍】新浪财经,提供7X24小时财经资讯及全球金融市场报价,覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载http://www.forenose.com/view/forespider/view/download.html【入口网址】http://finance.sina.com.cn/stock/sl/#.原创 2021-08-31 12:10:00 · 2400 阅读 · 0 评论 -
【从零开始学爬虫】采集易贝(ebay)商品信息
l采集网站【场景描述】采集易贝(ebay)中某一类别的所有商品信息。【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载:http://www.forenose.com/view/forespider/view/download.html【入口网址】https://cn.ebay.com/b/Mens-Clothing/1059/bn_696958【采集内容】采集易贝(ebay)中的所有男装商品信息,包括商品名称、商品价格、库存量、商家名称、商家评分、商家好评率.原创 2021-07-27 10:47:50 · 2740 阅读 · 1 评论 -
【从零开始学爬虫】采集事业单位最新招聘信息
l采集网站【场景描述】采集上海交通大学最新招聘信息。【爬虫下载】http://forenose.com/view/forespider/view/download.html【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm【采集内容】采集该网站上发布的招聘公告信息,采集字段为:招聘标题、发布时间、招聘正文。l思路分析配置思路概览:l配置步骤1.新建采集任务选择【采集配置】,点击任务列表右上...原创 2021-07-07 17:56:32 · 343 阅读 · 0 评论 -
【从零开始学爬虫】采集亚马逊商品信息
l采集网站【场景描述】采集亚马逊搜索关键词出来的商品信息。【入口网址】https://www.amazon.com/-/zh/ref=nav_logo【采集内容】采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。l思路分析l配置步骤一.新建采集任务选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。二.关键词配置及翻...原创 2021-06-30 17:53:50 · 1506 阅读 · 2 评论 -
【从零开始学爬虫】采集全国航班信息
l采集网站【场景描述】采集全国航班信息。【入口网址】http://www.esk365.com/tools/gnhb/【采集内容】采集全国航班的航班号,起点、终点。l思路分析配置思路概览:l配置步骤一.新建采集任务选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。二.链接抽取1.列表链接需要脚本配置,操作如下图所示:2.查...原创 2021-06-17 11:14:41 · 1581 阅读 · 3 评论 -
爬虫教程:如何批量采集知乎
采集网站【场景描述】通过搜狗搜索的知乎搜索栏目,按关键词搜索采集知乎正文【入口网址】https://zhihu.sogou.com【采集内容】本次采集的数据为知乎文章的标题和内容l思路分析功能点总结:关键词配置链接、翻页、链接抽取、数据抽取配置思路l配置步骤1.新建采集任务选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可。由于本次采集是通过关键词采集相关内容,所以【采集...原创 2021-04-12 16:08:32 · 1992 阅读 · 0 评论 -
前嗅教你大数据:常见的网站反爬策略与解决方案
大家在采集数据的过程中经常会遇到网站反爬的情况,不同网站反爬策略也不尽相同。今天,前嗅为大家总结了我们平时经常碰到的几种反爬策略,以及解决方法。网站反爬,原理是服务器通过访问者请求中夹带的一些访问者的信息,来识别访问者,并对访问者进行限制。比如服务器通过请求识别到访问者IP,对同一个IP访问频率做出了限制,那么当同一个IP访问频率超过限制时,访问就会出现问题。前嗅ForeSpider数据采...原创 2020-11-27 11:37:01 · 588 阅读 · 0 评论 -
前嗅ForeSpider数据采集教程:采集【中国证券网】的正文数据
一.网站结构:网站截图说明2. 采集结果截图检索列表链接检索结果数据二、配置模板:第一步:新建任务点击加号,在弹窗里填写采集地址,任务名称,如图新建任务点击下一步,选择进行数据抽取还是链接抽取,本次采集要闻列表页新闻的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链接,如图:新建采集任务...原创 2020-01-15 14:09:27 · 2259 阅读 · 1 评论 -
透过大数据了解化妆品-BB霜行业概况
2010年,双十一开办以来的第二年,BB霜成了当年的爆款。这种介于防晒霜和粉底液之间的产品,经由韩国品牌发扬光大,量身定做般的迎合了亚洲人对裸妆的迷恋。不过百的价格就能买到的入门底妆产品。时隔10年,随着化妆品行业不断地推陈出新,BB霜也许已经淡出人们的视野。或许有些还在激烈的市场中顽强的坚持着,更有些经过这么多年依然经久不衰人气十足。时至今日,BB霜市场的发展...原创 2020-01-15 12:45:41 · 336 阅读 · 1 评论 -
前嗅ForeSpider数据采集教程:通过识别列表进行数据抽取
以孔夫子旧书网(http://www.kongfz.com/1004/)为例:一.网站结构1.网站截图说明该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取。网站列表页2. 采集结果截图采集数据结果二. 配置模板新建任务新建任务点击【下一步】,需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】,如...原创 2020-01-14 15:27:49 · 2529 阅读 · 0 评论 -
前嗅ForeSpider采集教程:采集【链接列表】的数据
案例:采集“人上人”官网首页数据列表人上人-最新资讯:http://www.gzrsr.com/news/一.网站内容1.网站截图说明本教程通过采集“人上人”首页“最新资讯”栏目列表中的数据为例,故链接入口为:http://www.gzrsr.com/news/,如下图:【人上人官网-“联系我们”】2.采集结果截图【链接列表采集预览】一.操作方法...原创 2020-01-13 15:02:48 · 1565 阅读 · 0 评论 -
前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
以百度搜索关键词(http://www.baidu.com)为例:一. 网站结构网站截图说明使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据。检索列表页检索结果页2. 采集结果截图检索列表链接检索结果数据二. 配置模板新建任务新建任务点击【下一步】,需要采集全部检索...原创 2020-01-13 14:12:48 · 837 阅读 · 0 评论 -
李子柒方面否认年入1.68亿,造谣者居然这样回应...
扎克伯格谈2030年远景展望:AR、VR、隐私和监管Facebook CEO马克·扎克伯格(Mark Zuckerberg)周四发帖称:“我一直都在试着思考我希望2030年的世界和我的生活会是什么样子,而不是应对年复一年的挑战。”他在帖子中透露出来的要点如下:- AR(增强现实):在未来十年的大部分时间里,手机仍旧将是主要的计算平台,而增强现实设备能让人们建立起更好的...原创 2020-01-13 13:18:51 · 287 阅读 · 1 评论 -
前嗅ForeSpider数据采集教程:采集东方财富网链接列表
案例:采集【东方财富网】首页新闻列表中的新闻一.网站内容1.网站截图说明本教程以采集“东方财富网”首页新闻列表中的新闻(正文数据)为例,故链接入口应官方网址(http://www.eastmoney.com/),如下图。东方财富官网2.采集结果截图链接列表采集预览二.操作方法1.新建任务按图片数字所示,1-2...原创 2020-01-11 13:09:56 · 3135 阅读 · 0 评论 -
前嗅ForeSpider采集教程:采集安居客列表数据
通过【链接列表】采集网站中的【正文数据】案例:安居客二手房列表页链接,加翻页安居客http://www.ifeng.com一.网站内容1.网站截图说明本教程以采集“二手房”列表页链接内的正文数据为例,故链接入口应该为“二手房”板块的网址(https://tianjin.anjuke.com/sale/?from=navigation)Step1:点击官网,找到“...原创 2020-01-11 10:18:30 · 3014 阅读 · 0 评论 -
前嗅ForeSpider采集教学:通过关键词采集【检索结果】
一.网站内容1.网站截图说明本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“鹅鹅鹅”为例,故链接入口为:https://so.gushiwen.org/search.aspx?value=%E9%B9%85%E9%B9%85%E9%B9%85Step1:在官网输入关键词“鹅鹅鹅”,如图所示:Step1:复制该页面的链接,作为本次...原创 2020-01-10 15:27:39 · 1989 阅读 · 0 评论 -
前嗅大数据—ForeSpider教你如何采集【列表数据】
以采集起点中文小说网中(https://www.qidian.com/)的数据列表的数据为例:一.网站结构1.网站截图说明采集起点中文网中的最近更新数据列表中的数据,如下图所示:【列表数据页面】2.采集结果截图【采集出来的列表数据】二.配置模板新建任务点击下一步,由于仅需要采集本页面表格数据,所以勾选【抽选数据】。2.创建/选择表单...原创 2020-01-09 14:27:27 · 3132 阅读 · 0 评论 -
【疯狂的嗅星人】连载二:最新能量源大揭秘
*剧情回顾 上一集讲到:由于嗅星球上的源主机数据库被终极大反派入侵整个嗅星球面临着重大危机,或将被毁灭而作为嗅星球上的科技大佬嗅豆博士不得不通过量子传输通道将伙伴们穿梭到另一个星球 —地球来进行避难面对众多大反派的威胁嗅豆博士和他们的朋友们该如何面对?面对地球陌生的环境没有嗅能...原创 2020-01-07 10:12:38 · 314 阅读 · 0 评论 -
为什么汉语不能用来编程?
在2020年元旦之夜距离地球543万光年的嗅星球上一位神秘大反派把嗅星球源主机上的数据删库后跑路嗅豆博士作为嗅星球上的科技大佬不得不通过量子传输通道将族人传送到其他的星球避难此时前嗅研究院正在进行一项量子通讯协议测试嗅豆博士和他的宠物团子就这样被传送到了地球来到前嗅研究院作为唯一拥有量子密钥的嗅豆博士肩负着重返星系...原创 2020-01-03 10:07:23 · 1589 阅读 · 1 评论