
爬虫实战
文章平均质量分 68
SpiderLQF
这个作者很懒,什么都没留下…
展开
-
多进程爬取淘宝商品信息
多进程爬取淘宝商品信息爬取思路、策略:一开始试着通过抓包模拟请求来爬取淘宝,但是淘宝返回的数据并不全是正确的,即通过返回真和假数据来达到反爬的目的,上网查资料也没多少是涉及到直接抓包请求爬取淘宝的,就这样自己瞎琢磨了一阵子后还是没有弄明白如何破解淘宝的反爬,于是决定采用selenium无头浏览器先实现爬取淘宝商品信息的目的,往后会继续来填这个坑。采用selenium无头浏览器,完全模拟浏览...原创 2018-08-28 16:20:27 · 1077 阅读 · 0 评论 -
城市名接龙爬取全国城市各医院基本信息(名字、地址、联系电话、医院等级、重点科室、经营方式等)
整个程序分两部分:实现城市名接龙(兼容谐音)和爬取城市医院信息。城市接龙部分:城市接龙需要兼容谐音,那么就必须用到xpinyin模块中的Pinyin类方法,负责将中文转换为拼音;而城市接龙的实现便是通过将初次输入的城市名的最后一个字的拼音跟所有已转换成拼音的城市名头一个字做对比,拼音相等(谐音)即是我们要的接龙城市,代码实现部分如下:#自动寻找下一个接龙城市def get_Next...原创 2018-09-03 19:35:48 · 3423 阅读 · 2 评论