
爬虫
卢政孝simi
个人网站http://www.smilenow.top
展开
-
07.Python浏览器自动化模块selenium简介
一.selenium简介 Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。 二.selenuum的使用 1.安装 pip install selenium 2.下载浏览器驱动程序 chrome浏览器驱动程序 Firefox浏览器 找到自己的浏览器版本下载驱动程序 3.浏览器自动播放咪咕音乐周杰伦歌曲列表第二首歌曲 from selenium import webdriver imp原创 2020-11-18 19:17:31 · 595 阅读 · 0 评论 -
06.python aiohttp实现异步爬虫
一.进程池实现异步爬虫 1.代码 #原则:线程池处理的是阻塞且较为耗时的操作 #对下述url发起请求解析出视频详情页的url和视频的名称 url = 'https://www.pearvideo.com/category_5' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//ul[@id="listvideoListUl"]/li') u原创 2020-11-15 20:46:04 · 202 阅读 · 0 评论 -
05.python requests IP代理
一.问题 爬虫程序单位时间访问次数达到服务器所限定的峰值,服务器会封掉我们本地的ip 二.代理的作用 突破自身IP访问的限制 隐藏自身真实IP 三.代理相关的网站 快代理 西祠代理 www.goubanjia.com 四.代理ip的类型 http:应用到http协议对应的url中 https:应用到https协议对应的url中 五.代理ip的匿名度 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip 匿名:知道使用了代理,不知道真实ip 高匿:不知道使用了代理,更不知道真实的ip原创 2020-11-13 02:00:33 · 981 阅读 · 0 评论 -
04 python 爬虫cookie的处理
一.简介 爬虫无法像浏览器一样自动存取和发送cookie,需要我们手动处理 二.处理cookie方法 1.用 requests.utils.dict_from_cookiejar() 把返回的cookies转换成字典 import requests #得到cookie def login(): login_url = 'http://www.xxx.com/login headers = { "Accept": "application/json, text/javascri原创 2020-11-13 01:31:46 · 491 阅读 · 0 评论 -
03.Python 爬虫数据解析
一.数据解析的方式 re(正则) bs4 xpath 二.数据解析的目的 精准获取我们在网页中想得到的数据 三.re(正则)方式解析数据 1.爬取爬取糗事百科中所有的糗图图片数据 import os import requests import re from urllib import request if not os.path.exists('./qiutu'): os.mkdir('./qiutu') headers = { 'User-Agent':'Mozilla/5.0 (原创 2020-11-12 19:33:29 · 163 阅读 · 0 评论 -
01.爬虫基础简介
前戏: 你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源… 你是否在节假日出行高峰的时候,想快速抢购火车票成功… 你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品… 什么是爬虫: - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的价值: 实际应用 就业 爬虫究竟是合法还是违法的? 在法律中是不被禁止 具有违法风险 善意爬虫 恶意爬虫 爬虫带来的风险可以体现在如下2方面: - 爬虫干扰了被访问网站的正常运营 - 爬虫抓取了收到法律保护的转载 2020-11-08 16:01:00 · 220 阅读 · 0 评论 -
02.python requests模块详解
一.requests的安装 pip install requests 二.requests爬取搜狗首页并存储 1.request.get方法 requests.get(url,params,kwargs) url:请求地址 params:参数 2.代码 import requests if __name__ == "__main__": #step_1:指定url url = 'https://www.sogou.com/' #step_2:发起请求 #get方法会返回一个原创 2020-11-10 18:49:43 · 380 阅读 · 0 评论