浙江国土局土地数据
浙江省土地使用权网上交易系统:http://land.zjgtjy.cn/GTJY_ZJ/go_home
操作方法:数据库数据更新,有地的时候抓取几次(一天)
1、打开 “浙江土地文档合并//数据库”文件夹,最外面的浙江土地导入数据库,点击运行,默认是爬取一页(认为5个小时更新不会超过一页)可以修改页数
2、第二步从数据库导出数据
点击运行
3,第三步数据计算处理,变成标准表。
杭州二手房挂牌房源
杭州市二手房交易监管服务平台:
http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp
每月定时抓取一次到数据库,修改月份字段,大概有20万条数据。
二手房挂牌房源唯一编码在8万-10万之间,爬取的数据要进行数据去除重复项。(20万-)8万)
去重后的数据要补充一些表头,并修改一些数据,具体:
1、取上一个月的二手房数据进行房源编码匹配,当月之前的数据全部匹配,(原因:挂牌房源除了当天的,其他时间的都在减少)当月的数据进行匹配,可能有些新增的,补充新增房源的系统名,经纬度,板块,行政区划(挂牌的地方不一定是实际的房源位置)。
2修正,将没有统一的房源名统一成系统名。
浙江投诉数据
统一政务咨询服务平台:
投诉数据是日更新数据,抓取浙江省投诉然后进行标注。具体把杭州市配套、毒点、楼盘问题投诉标注,然后整理。配套毒点是每周官方回复素材,楼盘问题是一季度楼盘黑榜素材。
摇号数据
1、pdf文件下载(几千个pdf文件)
浙江省杭州国立公证处文件下载:https://www.hz-notary.com/lottery/index
2、数据处理
拼接pdf表格数据成为一个excel,数据清洗处理。变成基础数据导入数据库。
3、读取SQL数据摇号人身份证前六位去重得到身份证编码,然后建立身份证编码表。对应省市区。(所有532131开头的身份证号码代表出生户口所在地是云南省昭通地区水富县)
具体的身份证编码表从网址:http://www.kuaichala.com/idcard/532131.html
抓取。
4、用代码处理库中基础数据,具体增加几列,性别,籍贯以及身份证编码
5、整理清洗得出数据,需要分析具体楼盘匹配相关表。