
爬虫基础
文章平均质量分 59
nalanyu2000
这个作者很懒,什么都没留下…
展开
-
爬虫基础1--Request
从get的源码来看,其实它是调用了request方法,可以说实际上requests只有request一种方法,但是为了使用方便,把它封装成六种方法。Responser.status_code表示是否获取成功,如果返回200则表示获取成功,返回其他则表示失败。Response对象属性用get方法爬取页面的基本流程 理解Response编码原创 2017-08-07 14:07:02 · 260 阅读 · 0 评论 -
爬虫基础1.2--Request
requests.request原创 2017-10-10 10:54:34 · 217 阅读 · 0 评论 -
MongoDB入门1
pymongo指定IP和端口一共两种形式参数形式MongoDB URL形式”’python conn=MongoClient(host=’127.0.0.1’,post=27017) ”’ post 是数字不是字符原创 2017-10-15 16:41:04 · 286 阅读 · 0 评论 -
mongoengine使用
1.初始化连接如果我们的MongoDB 是直接在本地电脑上面运行的,可以使用以下代码来连接到电脑上的MongoDB数据库:from mongoengine import *connect(‘数据库名’) 如果MongoDB不是运行在本地电脑上面的,就需要指定ip 地址和端口:from mongoengine import *connect(‘数据库名’, host=’192.168.2.12’原创 2017-10-15 22:11:48 · 2000 阅读 · 0 评论 -
XPath
XPath就是这样一种根据地址找人的技术。XPath(XML Path Language)是一种HTML和XML的查询语言,他能在XML和HTML的树状结构中寻找节点。在Python中,我们安装lxml库来使用XPath 技术。原创 2017-10-24 22:26:01 · 291 阅读 · 0 评论 -
Selenium(二)
声明浏览器对象 首先要引入webdriverfrom selenium import webdriverbrowser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.Edge()browser=webdriver.Safari()访问页面from selenium import webdriverbr原创 2017-11-14 10:57:12 · 340 阅读 · 0 评论 -
Cookie和Post模拟登陆
借助Chrome直接获取到Cookie,不过这种方式有局限性,并不如Fiddler通用,有一些网站使用这种方式获取的Cookie无法登录。经过测试,这种方式对知乎有效。在已经登录知乎的情况下,打开开发者工具,定位到 Network 选显卡,然后刷新网页,在加载的内容中,随便选择一项,然后看右侧的数据,如下图所示: 在右侧的Request Headers下面,你可以找到Cookie这一项,它后面的一原创 2017-11-14 11:13:09 · 7990 阅读 · 0 评论