
python3 爬虫入门
yjr-1100
( ´・ω・)ノ(._.`),关注我,一起学习
展开
-
每天30分钟 一起来学习爬虫——day17(数据存储 之 MySQL E_R模型 & Mysql--python交互)
MySql 表之间的关系E_R 模型的关系具体操作E_R 模型的关系关系:不建议表与表之间建立闭合的关系学生表,成绩表,科目表成绩表有一个外键与学生表和科目表关联foreign <key stuid> references <stu_id>foreign <key subid> references <subject_id>表与表...原创 2020-04-20 09:24:29 · 437 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day16(数据存储 之 MySQL 简单操作)
MySQL什么是MySQLMySQL 的一些特性安装Mysqlwindows 安装数据库的启动基础操作数据库操作表操作数据操作查询操作什么是MySQLMySQL是一个关系型数据库管理系统,在 WEB 应用方面,MySQL是一个好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。MySQL是一种关系型数据库管理系...原创 2020-04-05 16:45:59 · 1260 阅读 · 1 评论 -
每天30分钟 一起来学习爬虫——day15(数据存储 之 Redis)
MongoDB与python先要安装,pip install pymongo 一直看我博文的小伙伴应该已经切换好了国内源,如果没有切换好的 看看import pymongotry:# 1、连接mongod 的服务# pymongo.MongoClient(host=‘localhost’, port=27017) 一般第一个传host 第二个传port 但不传也可以mongo_py ...原创 2020-04-01 23:10:10 · 324 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day14(数据存储 之 MongoDB 操作·续 )
mongo聚合查询,管道看这个通俗易懂mongo和pyhon 的简单交互原创 2020-03-30 07:14:05 · 234 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day13(数据存储 之 MongoDB基础操作)
解决 MongoDB Windows10 非系统盘安装问题,什么是MongoDBMongoDB是一种面向文档的数据库管理系统数据库的分类:关系型数据库MySQL、Oracle、DB2、SQL Server关系数据库中全都是表非关系型数据库MongoDB 操作 1.基本指令数据库的CEUD操作1.增加数据2、查询数据3.修改数据4、删除数据原创 2020-03-29 08:17:13 · 368 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day12(数据存储 之 json &csv,实例:爬取All IT eBook)
文章目录json什么是jsonpython处理json格式用到的函数CSV什么是CSV:操作json文件转csv文件实例:爬取 All IT eBooksjson什么是jsonJSON是一种取代XML的数据结构,和xml相比,它更小巧但描述能力却不差,由于它的小巧所以网络传输数据将减少更多流量从而加快速度,那么,JSON到底是什么?JSON就是一串字符串 只不过元素会使用特定的符号标注...原创 2020-03-28 07:48:28 · 604 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day11(解析数据 之 bs4,实例:爬取北京市企业大全)
文章目录BeautifulSoup 简介使用方法实例 : 爬取 北京市企业大全BeautifulSoup 简介这个简写 bs 现在都是bs4,bs3 已经停止开发了,可以看看官方文档BeautifulSoup,就是一个第三方的库,使用之前需要安装pip install bs4,这里还是切换国内源的问题,按之前我的博客里配置好的就不用管了。使用方法form bs4 import Be...原创 2020-03-27 08:35:48 · 692 阅读 · 2 评论 -
每天30分钟 一起来学习爬虫——day10(解析数据 之 xpath,实例:好段子爬取)
文章目录xpath 解析网页什么是xpath ?常用的路径表达式:实例:安装xpath插件到浏览器。看代码中的使用:xpath 解析网页什么是xpath ?xml: 可扩展标记语言,用来传输和存储数据。他的标签没有预定义,要自己定义标签。 与html的区别: html是用来显示数据的,html的标签是固定的xpath: 是一门在xml 文档中查找信息的语言,这里,我们可以用xpath来查找...原创 2020-03-26 07:07:44 · 457 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day9(解析数据 之 正则表达式,实例:笑话大全图片爬取)
文章目录常用正则表达式实例:爬取笑话大全的图片常用正则表达式单个字符:符号含义.除换行以外所有字符[][a-w] a-w 之间任意一个字符\d数字[0-9]\D非数字\w数字、字母、下划线、中文\W非\w 的字符\s所有的空白字符\S非空白数量修饰符号含义*任意多次 (>...原创 2020-03-25 07:18:00 · 362 阅读 · 4 评论 -
每天30分钟 一起来学习爬虫——day8(requests库的cookie,ssl认证和代理,实例:人人网模拟登录)
文章目录代理ssl 认证代理代理代理的相关理论在前面已将说过了,这次直接看用requests 来设置代理import requestsurl = 'https://www.baidu.com/s?wd=ip&ie=UTF-8'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe...原创 2020-03-24 08:05:24 · 1236 阅读 · 4 评论 -
每天30分钟 一起来学习爬虫——day7(requests 库的get和post请求)
requests 库什么是requests官方文档:http://cn.python-requests.org/zh_CN/latestrequests 是 urllib的一个封装优点:简单易用url自动转义支持python2 python3 ,而且名字一样,无缝对接下面我们来使用一下首先 安装requests库,pip install requests 这里说一下,如果安装...原创 2020-03-22 08:10:08 · 301 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day6(urllib库——cookie和auth认证,实例:人人网模拟登录)
文章目录auth认证cookieauth认证有的公司抓取自己的网站做数据分析,这时一般用户登录的话权限特别小,这是一般有个admin,import urllib.parseimport urllib.request# 公司爬取内网数据的时候可能用,不过后面都用requestsdef auth_nei_wang(): user = 'username' pwd = '...原创 2020-03-19 18:09:20 · 620 阅读 · 1 评论 -
每天30分钟 一起来学习爬虫——day5(urllib库——设置代理 and URLError)
代理什么是代理:程序中的代理:正向代理:代替客户端发送请求的代理反向代理:代理服务端提供数据在浏览器地址栏直接输入 ip 可以查询本机的 ip先介绍两个代理网站:快代理西刺代理打开网站我们可以看到有收费的也有免费的,大家肯定能想到,免费的极其不稳定,经常失效,速度慢,但是,收费的也会失效,总之都不太稳定。代理还分为透明:服务器知道你的真实ip,知道你使用了代理...原创 2020-03-19 14:42:22 · 1814 阅读 · 0 评论 -
Python —— pip 切换国内源
很多国外源都不全而且不好链接,速度慢,所以我们经常需要切换国内源window 10 系统在文件资源管理器(就是平时说的文件夹)地址栏输入%appdata% 然后 回车之后我们会到一个不知道什么的文件夹里,没关系,我们只用找到pip这个文件夹,没有的话就新建一个,然后,在这个文件夹里写新建一个 pip.txt 的文件,里面写如下代码[global]timeout = 6000in...原创 2020-03-18 22:33:01 · 953 阅读 · 0 评论 -
每天30分钟,一起来学习爬虫——day4(urllib库——Ajax 实例:豆瓣电影,KFC餐厅地址)
Ajax 数据抓取什么是Ajax?Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更...原创 2020-03-18 14:56:18 · 356 阅读 · 0 评论 -
每天30分钟 一起来学习爬虫——day3(urllib库——post请求 实例:抓取百度翻译)
post请求GET 请求方法中,参数拼接在 url 中,而 post 请求方法中,表单数据(form data)参数单独传递,不拼接,而且,post 表单数据是 字节类型,不是 str 所以说要 encode 一下,下面我们以爬取百度翻译的结果为例讲解一下爬取百度翻译的结果我们通过上面的图,分析一下,sug 是接口然后提交Formdata,就可以获取到要查的单词啦,下面看代码,注意看注...原创 2020-03-17 19:32:19 · 745 阅读 · 0 评论 -
每天 30 分钟 一起来 Python3 学习爬虫——day 0 (fiddle 抓包工具学习)
fiddle 抓包工具 fiddle 教学Fiddler是通过改写HTTP代理,让数据从它那通过,来监控并且截取到数据。当然Fiddler很屌,在打开它的那一瞬间,它就已经设置好了浏览器的代理了。当你关闭的时候,它又帮你把代理还原了1、获取fiddle 4官网下载 网盘下载 提取码7tbz2、使用方法首先:确保你的 captuing 是打开的这样就开始抓包了,抓到的都在...原创 2020-03-24 09:22:45 · 561 阅读 · 0 评论 -
每天30分钟,一起来学习爬虫——day 2(urllib库——get请求 实例:百度搜索)
文章目录urllib 库:urllib.request 函数:urllib.parse 函数 :response 方法字符串-->字节类型之间的转化GET 请求方式1.代码实现百度搜索2.反爬第一步,构建请求头部信息urllib 库:urllib 是 python 里面提供的模拟浏览器发送请求的库python2 : urllib urllib2python3 : urllib.req...原创 2020-03-17 08:33:14 · 1184 阅读 · 0 评论 -
每天 30 分钟 一起来 Python3 学习爬虫——day 1 (基础知识了解)
基础知识了解http 协议(应用层的协议):常用端口:http(80)/https(443) ssh(22)http两种常用请求方式get优点:比较便捷,缺点:不安全-明文,参数的长度有限post优点:比较安全,数据整体没有限制,上传文件缺点:复杂http 请求:包括:请求行,请求头,一个空行请求行 : 用于描述客户端的请求方式 , 请求的资源名称及使用的 ht...原创 2020-03-17 06:59:55 · 1907 阅读 · 0 评论