项目需要所以尽力解决这个需求,这里主要记载及梳理解决思路,及过程中遇到的问题。网上目前有很多这样的帖子,能实现的也不少,具体跑出来结果还是需要结合多方的调试。
这里先把需求梳理一下,需要用python爬取XX省XX市XX区/县级的中小学经纬度,结果csv或者json、数据库格式都暂时不计较,主要是有源数据对比,初始爬取结果应当全面,更好去筛选。
目前主要的一个爬取思路是“通过百度地图API获取范围下符合搜索条件的POI点”,难点在于爬取范围的划分,搜索条件的切换,对搜索结果的判断,暂时就这几个,后面不知道有没有更多需求。
尝试了五个版本的代码,在网上8下来然后修改成需要的形式,包括一些改版,部分细节的优化。
最新的一个版本是:分块处理搜索步骤,①搜索区域的划分链接处理;②搜索关键字的获取;③AK的切换;④url的确定;⑤数据库的链接;⑥store2mysql转库操作
其中运行时候,对于关键字索引部分列表的使用还是有问题,待解决。
测试了一下数据库的操作,是可以写入完成链接的,排除了这部分代码的问题。