今天给大家分享一份爬取自中国政府采购网的政府采购数据,爬取的时间范围为 2000~2024 年 12 月,合计 578 万条数据(网站上标注的比这个多,不过里面存在很多重复的,去除之后就只剩这么多了)。
网站上的数据是这样的:

点击每一项可以看到合同的详情,根据时间的不同,详情页有两种形式。2020 年 7 月 1 日之前的合同详情页面是这样的:

2020 年 7 月 1 日之后的合同详情页面是这样的:

数据概览
经过我们的爬取整理,得到了 5777017 条合同数据,因为数据量较大,所以分年份进行了储存。以 2024 年为例,数据预览如下:

为了方便大家使用,部分变量已进行了初步处理(例如日期转换成日期变量,合同金额转换成了数值型)。
由于现在网站增加了反爬,所以仅仅爬取了目录页面的信息,不过也包含了供应商、客户、金额等关键信息,因此就没再继续爬取详情页面。供应商、客户的经纬度信息是先使用名称和工商注册信息匹配,然后使用匹配得到的工商注册地址解析得到的。如果没有匹配成功就直接使用名称解析。
这里有个特别需要注意的事情,就是数据里面的合同金额有一些是错误的,例如 100 万写成了 1000000 万(没有特别好的办法一一改正,有很多实在没法判断是对是错),因此上图是把合同金额超过 100 亿或者小于 1 万的删去了。
【下载→
方式一(推荐):主页 ↓个人↓简介
方式二:数据下载地址汇总_-优快云博客

被折叠的 条评论
为什么被折叠?



