
python-爬虫
文章平均质量分 58
dongge-destiny
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python-爬虫基本概念
1.爬虫1.1 数据的来源去第三方的公司购买数据(比如企查查)去免费的数据网站下载数据(比如国家统计局)通过爬虫爬取数据人工收集数据(比如问卷调查)在上面的来源中:人工的方式费时费力,免费的数据网站上的数据质量不佳,很多第三方的数据公司他们的数据来源往往也是爬虫获取的,所以获取数据最有效的途径就是通过爬虫爬取爬虫获取的数据的用途:进行在网页或者是app上进行展示进行数据分析或者是机器学习相关的项目...原创 2018-07-10 23:11:17 · 246 阅读 · 0 评论 -
爬虫的基本分类和爬虫的流程
1 爬虫的分类根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫 :通常指搜索引擎的爬虫(https://www.baidu.com)聚焦爬虫 :针对特定网站的爬虫2 爬虫的流程爬虫的工作流程:向起始url发送请求,并获取响应对响应进行提取如果提取url,则继续发送请求获取响应如果提取数据,则将数据进行保存3 robots协议Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,...原创 2018-07-10 23:14:53 · 6160 阅读 · 1 评论 -
爬虫-HTTP、HTTPS
1.http和https在发送请求,获取响应的过程中 就是发送http或https的请求,获取http或https的响应2 http和https的概念HTTP超文本传输协议默认端口号:80HTTPSHTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协议默认端口号:443HTTPS比HTTP更安全,但是性能更低HTTP: 是互联网上应用最为广泛的一种网络协议,所有的www文件都必须...原创 2018-07-10 23:57:00 · 4449 阅读 · 0 评论 -
字符串相关的复习
1 字符、字符集字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等字符集(Character set)是多个字符的集合字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等ASCII编码是1个字节,而Unicode编码通常是2个字节。UTF-8是Unicode的实现方式之一,UTF-8是它是一种变长的编码方式,可以是...原创 2018-07-10 23:57:48 · 184 阅读 · 0 评论 -
requests模块的入门使用
1.requests模块,而不是urllibrequests的底层实现就是urllibrequests在python2 和python3中通用,方法完全一样requests简单易用Requests能够自动帮助我们解压(gzip压缩的等)响应内容2 requests的作用作用:发送网络请求,返回响应数据中文文档 : http://docs.python-requests.org/zh_CN/late...原创 2018-07-11 00:10:18 · 329 阅读 · 0 评论 -
request模块的深入和使用
1 使用requests发送POST请求使用post请求的地方:登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)1.1 requests发送post请求语法:用法: response = requests.post("http://www.baidu.com/", \ data = data,headers=headers)data ...原创 2018-07-13 08:30:13 · 706 阅读 · 0 评论 -
requests模块的其他方法
1 requests中cookirJar的处理方法使用request获取的resposne对象,具有cookies属性,能够获取对方服务器设置在本地的cookie,但是如何使用这些cookie呢?1.1 方法介绍response.cookies是CookieJar类型使用requests.utils.dict_from_cookiejar,能够实现把cookiejar对象转化为字典1.2 方法展示...原创 2018-07-13 08:31:59 · 253 阅读 · 0 评论 -
urllib的学习
1 urllib介绍除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同!urllib在python中分为urllib和urllib2,在python3中为urllib下面以python3的urllib为例进行讲解2 urllib的基本方法介绍2.1 urllib.urlopoen传入URL地址import urllib.requestrespo...原创 2018-07-13 08:32:32 · 270 阅读 · 0 评论