
爬虫
文章平均质量分 65
花罚
一只迷茫的攻城狮
展开
-
【干货】xpath语法学习记录
Python Xpath语法节点xpath(‘//div’):选取所有div节点,并包含它所有的子节点;xpath(‘x/div’):选取 x 节点的下一层所有div节点,若 x 没有则从根节点开始;xpath(‘x/..’):选取 x 节点的父节点;xpath(‘div/text()’):获得 div 标签中的 text 值;xpath(‘div/@class’):获得 div 标签中原创 2017-07-26 17:59:22 · 920 阅读 · 0 评论 -
【干货】requests的使用方法
Requests is an elegant and simple HTTP library for Python, built for human beings. 两个重要的方法:get和postrequests.get()语法r = requests.get(url, params={}, headers={}, cookies={}, allow_redirects=True, timeou原创 2017-07-26 17:58:57 · 7160 阅读 · 1 评论 -
python爬虫中的mongo实践
本次使用requests作为http请求工具,获取小说封面的方式采用爬虫分类型、分页爬去小说封面地址,向图片的原地址发送http的get请求,获取response的content就是图片的二进制数据了,本次存储图片的方式并采用系统自带的文件系统,而是使用mongodb的GridFS原创 2017-01-18 14:57:33 · 2217 阅读 · 0 评论 -
基于BeautifulSoup解析的网页爬虫实现
目标爬去cnkongqi.com上的气象数据,cnkongqi.com站点上包含全国每个城市的天气,空气质量等数据,这些数据每小时都会进行更新。我的目标是要将该站点的某一时间的气象数据全部抓取下来,并保存到数据库。本次爬虫编写语言选用python,由于在下对python是小白,所以这个爬虫程序可以算是我的第一个完整的python爬虫。原创 2016-12-28 22:03:47 · 1138 阅读 · 0 评论 -
基于Jsoup实现的简单爬虫
Jsoup 概念 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。其实在这之前我解析Html一直都是使用HtmlPaser来做,在我第一次看到Jsoup的时候,我就在思考Jsoup的存在意义,既然已经有htmlPaser为什么还会Jsoup出现。原创 2016-12-09 15:19:26 · 3480 阅读 · 0 评论