
python爬虫笔记
关键词:python爬虫组队学习;全网最强蜘蛛精
穆藩6211
这个作者很懒,什么都没留下…
展开
-
爬虫Task_03(IP代理,selenium,session和cookie)
一、IP相关 1、应对IP被封的方法: 修改请求头;模拟浏览器(而不是代码去直接访问)去访问;采用代理IP并轮换 2、获取IP地址 1)从该网站获取: https://www.xicidaili.com/;2)inspect -> 鼠标定位;3)要获取的代理IP地址,属于class = "odd"标签的内容:代码如下,获取的代理IP保存在proxy_ip_list列表 3、实例 from b...原创 2020-04-25 21:19:37 · 372 阅读 · 0 评论 -
爬虫专题Task_2(bs4、xpath&正则表达式)
一、bs4 1、简介 Beautiful Soup是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据 2、相关概念 1)beautifulsoup4:python库(可用pip命令进行安装) 2)BeautifulSoup:一个类,由安装的库进行导入 html = 标签树 = BeautifulSoup类 所以可以对HTML文件采用类的方法进行解析 import requ...原创 2020-04-23 22:32:51 · 171 阅读 · 0 评论 -
Task_01(html等有关知识,api使用,request-get使用)
一、重点收获: 1、对get/post两种类型有所理解,get类型主要针对获取所需内容不需要自己提供输入信息的情况,简单的比方就是摘抄内容;post类型主要针对获取所需内容需要自己提供输入信息的情况,类似于问答,比如说网页翻译,则需要输出原文。这就是爬虫的两大类型。 二、知识梳理 1、HTTP是客户端和服务器之间请求和应答的标准,种类有:get/head/post/put/delete/trace...原创 2020-04-21 22:00:38 · 170 阅读 · 0 评论