
爬虫
会飞的猩猩。
这个作者很懒,什么都没留下…
展开
-
pyquery根据标签查询元素失败
最近在做淘宝美食信息爬取练习的时候,发现用pyquery根据标签不能获取元素。后来发现主要是因为标签里面包含了xmlns="http://www.w3.org/1999/xhtml"属性,去掉这个属性,或者用标签的其他属性就可以获取到元素信息.在这里举一个原创 2018-09-23 14:39:38 · 1513 阅读 · 2 评论 -
mac下安装tesserocr包的流程和错误(Failed building wheel for tesserocr)
按以下是步骤顺序安装:brew install imagemagickbrew install tesseract在命令行输入tesseract即可验证是否成功安装tesseractpip3 install tesserocr如果最后一步出现Failed building wheel for tesserocr问题,在仔细看的话会发现是include <cstdint&...原创 2018-10-18 01:23:21 · 1413 阅读 · 0 评论 -
pyquery 获取标签children的text的值为None
感觉爬虫里面有很多的小坑,这也是其中之一。在写爬虫的时候,发现一直获取不了children的text,返回的值为 None. 但实际上text里面是有值的。出现这个原因主要是因为标签里面包含了<b></b>标签,这里给大家举个原创 2018-10-15 00:44:33 · 1813 阅读 · 0 评论 -
python爬取自如房间信息(一)
使用python和selenium+Chrome Headless爬取自如房间信息,并将结果存储在MongoDB中。其中最麻烦的应该是每间房的价格,因为自如是用一张图片和offset来显示价格,所以不能直接获得。但我们可以通过将图片转为文字,再通过偏移量将数字组合为价格。在这里我们使用的是Chrome Headless而不是PhantomJS, 主要是因为前者不需要设置size大小,同时也更加...原创 2018-10-30 22:45:50 · 4921 阅读 · 0 评论 -
python爬取自如房间信息(二)
主要是针对自如房价的爬取 。以下代码对房价图片进行处理,将里面的数字提取出来,然后用knn最近邻算法去对图片上的数据进行分类。import sysimport cv2import numpy as np ####### training part ############### samples = np.loadtxt('generalsamples.data',np....原创 2018-11-05 00:18:21 · 696 阅读 · 0 评论 -
用json.loads()将字符串转换为json格式出错
今天爬取今日头条的街拍时,需要将里面的一个字符串变为json格式,结果直接转换就出现了json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)查看发现是网页里面的字符串里面含有\, 如下面的字符串所示,在灭一个双引号前面和右斜杠前面都有一...原创 2018-11-15 21:32:50 · 2310 阅读 · 0 评论 -
【Python】爬取菜鸟物流管家异步加载XHR订单
最近需要商家的订单信息,一直Ctrl+c和Ctrl+v感觉就是有点儿不科学,所以就想爬一下试试。首先得有商家的账号,巧妇难为无米之炊,还是得有账号。因为以前没有爬过,就是各种的尝试。本来是想用selenium来模拟登录,然后一步一步的获取我想要的信息。但是,模拟登录的时候有滑块,手动操作这个滑块也不行。正常在浏览器上登录时就没有这个滑块,所以我就改用cookie来爬了。刚开始就找了我看...原创 2019-09-11 15:02:51 · 1421 阅读 · 0 评论