【数据挖掘与分析】python网络爬虫学习及实践记录 | XX城区POI点的获取

本文记录了一个使用Python进行网络爬虫的实践项目,目标是获取XX省XX市XX区的中小学经纬度数据。通过百度地图API,将搜索结果从JSON转换为CSV格式,并探讨了爬取过程中的区域划分、关键字切换、AK管理等问题。项目已成功写入数据库,但关键字索引部分仍存在待解决的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目需要所以尽力解决这个需求,这里主要记载及梳理解决思路,及过程中遇到的问题。网上目前有很多这样的帖子,能实现的也不少,具体跑出来结果还是需要结合多方的调试。

这里先把需求梳理一下,需要用python爬取XX省XX市XX区/县级的中小学经纬度,结果csv或者json、数据库格式都暂时不计较,主要是有源数据对比,初始爬取结果应当全面,更好去筛选。

目前主要的一个爬取思路是“通过百度地图API获取范围下符合搜索条件的POI点”,难点在于爬取范围的划分,搜索条件的切换,对搜索结果的判断,暂时就这几个,后面不知道有没有更多需求。

尝试了五个版本的代码,在网上8下来然后修改成需要的形式,包括一些改版,部分细节的优化。

最新的一个版本是:分块处理搜索步骤,①搜索区域的划分链接处理;②搜索关键字的获取;③AK的切换;④url的确定;⑤数据库的链接;⑥store2mysql转库操作

其中运行时候,对于关键字索引部分列表的使用还是有问题,待解决。

测试了一下数据库的操作,是可以写入完成链接的,排除了这部分代码的问题。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值