爬虫预算方案调研整理

一. 长效IP与短效IP

1、长效代理IP:是一个存活时间较长的IP地址

长期代理IP是一个存活时间较长的IP地址,代理IP使用时间可以自由控制,灵活多变,可以长期使用,也可以最少1小时切换一次,适合于IP频率低,时效长的商业场景。

2、短效代理IP:短期代理IP一般是指1-2分钟、3分钟、5分钟、10分钟的代理IP

短期代理IP一般是指1-2分钟、3分钟、5分钟、10分钟的代理IP。当然,不同因时效而异,时间越长价格越高。短效代理IP适用于代理IP数量大但时效短的业务场景。
**
3、应用场景**

短期IP可以完成爬虫收集、浏览网页、网络营销、投票帮助等工作。这些业务需要大量的IP不断切换,也包括最近流行的游戏直播和电子商务行业,可以用来增加知名度或辅助商店运营。比如有些过程繁琐的业务需要使用长期IP,比如网购下单,新媒体运营,都需要很长的IP地址。

短效IP 价格随时间长价格变高

因为服务商的ip池中ip是有限,长时间的占用ip资源势必造成资源不能共享,变成独享资源,而短效时间越短,ip切换越频繁,共享资源更充分

二.IP代理池价格

  • 短效 30s
12000/月 
14.4w/年
单次提取IP数 1000
参考连接 https://www.xiequ.cn/index_free.html
  • 短效3-6分钟
26w/年
单次提取IP数  200
参考连接 https://www.zdaye.com/ShortProxy_detail.html

三. 服务器价格

32核
64g
100M带宽
12w/台/年

四.按服务器资源计算

1,不算人员和数据库,单就服务器+IP

计算 xxxx 个商品 5 分钟拿完,则1分钟需要 xxx/5=xxx 1分钟需要拿到xxxx个商品 1 分钟需要xxxx个 动态ip
计算 最多 30s 拿到一个商品价格,则1分钟用 xxxx个 ip 开启 xxxx 个进程去取,1200/32≈38 (X)
计算 最多 20s 拿一个商品 1分钟用 800个ip 开启800个进程 800/32=25(X)

计算1分钟开启64个进程 800/64=12.5 台服务器 12.5x12=150w+26w=176w

2,无头浏览器开启测试

按照谷歌浏览器无头浏览器 一个启动所需内存 101M 的 再多线程开启情况下 64G 内存可以一次开启 648
按60g算 550个 无头浏览器进程

开启一个无头浏览器到渲染出网页需要 4s
按照服务器满负载运行 一台服务器开启 500 个进程 10s开启,20s拿到数据,则800个进程需要两台满负载运行的服务器
12w x2 =24w + 26w = 50w

五. 调研服务商

时间单位

  • 24h/天
  • 86400s/天
  • 1440 min/天
  • 一分钟 60 秒

1,场景需求

5分钟抓取12000个商品

2,计算分析

5分钟抓取12000个商品,每1分钟需要抓 12000/5 = 2400 个商品,1个商品由一个ip,则需要2400个ip
假设30s取完一个商品,则2个商品由1个ip 1分钟取到,则5分钟需要1200个IP
假设20s取完一个商品,则3个商品由1个ip 1分钟取到,则5分钟需要800个ip
取短效 5分钟 :一天有1440分钟 每5分钟切换一次 ip 则需要切换 1440/5=288次
1次取两个,每天需要ip总量是 2881200=345600个
1次取三个,每天需要ip总量是 288
800=230400个
三种计费方式

  • 按每日提取ip总量计费
  • 按单次提取ip数量计费
  • 隧道代理按并发量计费
2.1 对比分析

神龙HTTP:https://h.shenlongip.com/buy
计费方式:按每日提取ip总量计费
套餐:包年-5分钟失效
报价:
1次取两个,每天需要 ip总量345600个, 价格 63w/年
1次取三个,每天需要ip总量230400个,价格 42w/年

天启:https://www.tianqiip.com/buy
计费方式:按每日提取ip总量计费
套餐:包年-5分钟失效
报价:
1次取两个,每天需要 ip总量345600个, 价格 63w/年
1次取三个,每天需要ip总量230400个,价格 42w/年

携趣网络:https://www.xiequ.cn/DlGaoni.aspx
计费方式:按单次提取ip数量计费
套餐:包月/1分钟短效ip API请求无时间限制
报价:
1次取两个,30s取一个商品,1分钟内需要1200个ip,1200/200=6次,请求6次拿到1200个ip在1分钟内发起2次抓取商品 12000/月 *12 = 14.4w/年

https://www.xiequ.cn/DlSd.aspx
计费方式:隧道代理按并发量计费
套餐:包年 并发取 200次/s 即每秒有200个ip请求
报价:
1次取1个,30s内取一个商品,1分钟的前30s发送请求抓取,可以发送30*200=6000 两分钟抓取到12000商品 14.6w/年

站大爷:https://www.zdaye.com/doc/api/ShortProxy/
计费方式:按单次提取ip数量计费
套餐:包年 /短效3-5分钟 API请求 10s间隔 单次200个ip/300个ip
报价:
1次取两个,30s取一个商品,1分钟需要1200个ip,1200/200=6次,1分钟能取到1200个ip 但是不能完成抓取任务 26w/年
按一次取300个ip 1200/300=4次 1分钟内发送4次,分别在第1s,11s,21s,31s取300个ip,1分钟内正好可以抓取完1200个商品 39w/年

阿布云:https://www.zdaye.com/doc/api/ShortProxy/
计费方式:隧道代理按并发量计费
套餐:包年 动态并发最大 200个/s 请求
报价:
1s发送200个请求 每个请求30s拿完数据返回,1分钟内至少在前30s可以发送30次请求,抓取30*200=6000个商品 2分钟即可抓取12000个商品 16.3w/年

3, 调研过程及接入方式与价格

  • API 拿取代理IP地址

站大爷

参考网站 https://www.zdaye.com/doc/api/ShortProxy/
 API调用频率: 10s  
    计算 10s拿一次,按单次拿 200 个 ip 计算 1分钟可以拿6次  为 1200 个ip 拿到 ip 后需要有足够的时间反应取到商品数据,按20秒取一个商品,1分钟取3个商品
2400/3=800 个 ip 按(短效 3~6 min 足够) 一次请求800个ip,每个ip在有效期内发送三次请求,800 ip需要104w/年
或者1分钟内请求 5 次,一次 200 个 算1000 ip ,但是确保10s内数据请求到数据,26w/年
按一次取300个ip 1200/300=4次 1分钟内发送4次,分别在第1s,11s,21s,31s取300个ip,1分钟内正好可以抓取完1200个商品 39w/年

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dKhkhQmV-1659584447268)(http://10.106.1.145:8001//server/index.php?s=/api/attachment/visitFile/sign/4fccb4675d1cf8192a46cb483dd9d522)]

神龙HTTP

 按ip总量计费
参考网站  https://h.shenlongip.com/buy
    API最快调用频率: 1s  
    并发请求数量: 不限制
按ip总量计算价格 5分钟时效的:12000个商品5分钟需要 2400个ip,每天需要1440/5=288次切换,总需要 288*2400=691200个ip  126w/年

在这里插入图片描述

携趣网络

参考网站 https://www.xiequ.cn/DlGaoni.aspx
携趣网络
    API调用频率: 无限制
    并发请求数量: 200
适用于每天需要大量高匿IP的用户使用,支持HTTP(S)、S5协议,每个IP有效时长可根据业务需求选择30秒-24小时,支持毫秒级高并发高频率提取间隔,最大每次提取200IP, 14.4W

天启 HTTP

参考网站 https://www.tianqiip.com/buy
API最快调用频率:1秒
  单次最大提取数量:200
价格计算公式:IP单价*时长天数*提取数量*折扣比例 按5分钟时效 126w/年

在这里插入图片描述

  • 隧道代理

    仅需一次性配置一个代理IP,其它变IP工作由隧道自动完成,同时支持HTTP(S)、S5协议,日均去重IP数量可达百万。隧道代理固定IP和端口(如:8.8.8.8:3828),不提供API,请确保软件和程序支持该产品。

携趣网络

参考网站 https://www.xiequ.cn/DlSd.aspx
在每次请求都发送到新的 ip 时,并发限制 200次/秒   14.6w/年

在这里插入图片描述

快代理

参考网站 https://www.kuaidaili.com/pricing/#tps
量小

阿布云代理

参考网站 https://www.abuyun.com/

专业版
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TpAKlWpZ-1659584447270)(http://10.106.1.145:8001//server/index.php?s=/api/attachment/visitFile/sign/13d4a872cc9b04ac7324630eb6c75b97)]

动态版
在这里插入图片描述

一、 设计目的 《数据采集与网络爬虫基础课程设计》是在学生完成《数据采集与网络爬虫基础》之后开展的一个综合性实践教学环节。通过本教学环节,学生能够理解数据采集的基本概念、涵盖范围以及网络爬虫在其中所扮演的角色和地位;掌握数据采集常用的方法、工具,熟悉网络爬虫的基本原理、架构和运行机制;了解不同类型网站(如静态网页、动态网页等)的数据结构特点以及相应的采集策略。能够分析和解决数据采集过程中遇到的实际问题,例如应对网站反爬虫机制、处理数据格式不一致等情况;具备独立编写简单网络爬虫程序的能力,能根据具体需求对爬虫进行配置和优化,使其精准、高效地采集目标数据;具备构建小型数据采集系统的能力,从需求分析、方案设计到具体实施及后续的测试完善等环节都能有序开展。培养学生的创新思维和团队协作精神,在面对复杂的数据采集需求和不断变化的网络环境时,鼓励学生探索新颖的解决思路和方法,并通过小组合作共同完成项目任务。增强学生的数据安全意识和隐私保护意识,明白在采集数据过程中需遵循法律法规,尊重他人的隐私和权益,不随意侵犯数据所有者的合法权益。培养学生良好的职业道德和工程伦理观念,严格把控数据来源的合法性以及使用用途的正当性,提高学生的综合素质,为将来从事数据分析、网络开发、信息检索等相关工作打下坚实基础。 二、 设计内容 (一)目标确定与需求调研 明确数据采集的目标,例如采集的数据类型(文本、图片、数值等)、数据来源(特定网站、多个平台等)、应用场景(数据分析、市场调研等);调研目标数据源的基本情况,包括网站结构、反爬虫机制(若有)、数据更新频率等;了解对数据量、数据准确性、采集周期等具体要求。 (二)方案设计 根据目标数据源的特点,选择合适的数据采集方法(如直接爬取网页、调用 API 接口等);确定网络爬虫的架构模式(如单线程、多线程、分布式等);规划如何应对目标网站的反爬虫机制(如设置合理的请求频率、使用代理 IP、伪装请求头信息等);分析要采集的数据在网页中的位置和呈现形式,制定相应的解析策略(如基于 XPath、CSS 选择器、正则表达式等解析方法)。 (三)设备选型和方案预算 按照制定的采集策略,利用选定的编程语言和工具开始编写网络爬虫程序;搭建爬虫的基本框架,实现网页请求发送功能,确保能正常访问目标网页;根据解析策略,编写代码实现对网页内容的准确提取,将所需数据进行初步整理和存储(如保存到本地文件、数据库等);添加必要的异常处理机制,保障爬虫在遇到网络异常、页面结构变化等情况时能稳定运行。 (四)网络仿真与测试 对已开发的网络爬虫程序进行性能测试,分析采集效率、资源占用情况(如内存、CPU 使用率等),找出性能瓶颈所在;针对性能问题,采取相应的优化措施,如优化请求并发数、减少不必要的重复请求、优化数据存储操作等;进行功能测试,检查是否能准确采集到所有目标数据,数据的完整性和准确性是否符合要求,对不同页面类型、动态加载内容等情况的处理是否正确;根据测试结果不断调整和完善爬虫程序。 拼多多平台商品与网络爬虫课设 (五)撰写设计说明书 报告应涵盖目标与需求、采集策略、爬虫程序设计与实现、优化测试过程、数据整理分析结果(若有)等内容;详细描述遇到的问题及解决方法,总结经验教训;按照规范格式排版,做到条理清晰、内容完整、逻辑严谨,参考的文献资料要准确标注。 系统的总体设计目标:通过爬取拼多多电商平台的商品数据,掌握静态、动态网页爬取技术、数据解析与数据存储、数据处理与分析、反爬虫策略、数据可视化分析等能力,培养商业数据分析思维。总体来说要完成以下工作。 1.项目概述 2.需求分析 3.总体方案设计 4.数据采集与解析 5.数据存储 6.数据处理与分析 7.设计总结
最新发布
06-13
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值