
python爬虫
安男i
人生苦短我用python
展开
-
python抓取微信公众号文章及评论(附过程)
需求:抓取人民网微信公众号的文章和评论使用工具: fiddler python3 微信pc客户端破解过程:首先 使用fiddler对微信pc端抓包,需要配置https证书,另外最好加个filter方便抓取然后操作微信客户端获取公众号文章的请求。如图下拉即可获取更多文章从响应中我们即可发现需要的请求是什么获取评论同理,只需要点开页面即可。综上,我们可以获取到两个请求所需要得链接。搜索文章https://mp.weixin.qq.com/mp/profile_ext?action=get原创 2020-12-25 16:15:27 · 2870 阅读 · 0 评论 -
多线程的使用
1.创建线程的第一种方式import randomimport threadingimport timedef down(file): print(file,'任务1开始下载') time.sleep(random.randint(0,3)) print(file,'任务2开始下载')if __name__ == '__main__': #创建多线程 for i in range(3): t = threadi原创 2020-11-03 19:37:26 · 404 阅读 · 2 评论 -
爬虫案例(八)
1.安居客租房 (base64加密)#思考# 1.请求内容 获取base加密内容# 2.使用base64位模块进行解密# 3.替换原代码中的16位进制字符import requests,re,base64,iofrom fontTools.ttLib import TTFontdef get_base_content(base_content_pattern): #用base方法解密 需要使用base64模块,返回二进制类型数据 r_base =base64.b64deco原创 2020-11-03 19:25:39 · 374 阅读 · 0 评论 -
爬虫案例(七)
1.极验登录import reimport requestsfrom lxml import etreefrom fontTools.ttLib import TTFontdef get_dict(url): #向.css文件地址发送请求 返回响应 response = requests.get(url=url,headers=headers) #利用正则提取woff文件路径 woff = re.compile(r',url\("(.*?)"')原创 2020-11-03 19:22:37 · 383 阅读 · 0 评论 -
爬虫案例(六)
1.selenium手动打码from selenium import webdriver'''问题一: 如果出现警示框,需要点击确认 解决方法:点击确认 切入警示框中并点击确定 driver.switch_to.alert.accept()问题二: 如果配置好IE之后,出现验证证书的问题: 解决:执行下面代码 driver.execute_script("javascript:document.getElementById('overridelin原创 2020-11-03 19:19:16 · 470 阅读 · 1 评论 -
爬虫案例(五)
1.豆瓣电影'''需求:获取所有分类下,所有电影信息(排名,电影名,演员,评分)'''import reimport requestsfrom lxml import etree# 定义请求函数def get_response(url): response = requests.get(url=url,headers=headers) print(response.text) if flag ==0: return response.text原创 2020-11-03 09:07:26 · 407 阅读 · 0 评论 -
爬虫案例(四)
1. xpath的使用'''安装lxml第一种方式:from lxml import etree第二种:from lxml import htmletree = html.etree2. etree.HTML() (将字符串转换成HMTL元素对象3.方法: tostring()方法 查看转换后的内容(二进制类)4.xpath路径 两种方法第一种:/第二种方法:// 任意路径 焦点在元素名字身上5.text() 获取标签之间的内容6.获取title标签之间的内容原创 2020-11-03 09:02:18 · 163 阅读 · 0 评论 -
爬虫案例(三)
1.正则表达式练习'''/d 匹配任意数字/w 匹配任意字母 数字 下划线. 匹配除了换行符任意字符* 匹配0次或者更多次^ 匹配行首$ 匹配行尾/D 匹配非数字/W 匹配非数字非字母非下划线/S 匹配任意非空白符/s 匹配任意空白符 包括 换行符 Tab制表符 空格[a-z] 匹配 a-z的所有字母[0-9] 匹配0-9的所有数字[\u4e00-\u9fa5] 中文编码范围[^123a_z] 匹配除了 1 or 2 or 3 or a-z 以为的所有字原创 2020-11-03 08:58:40 · 403 阅读 · 0 评论 -
爬虫案例(一)
1.百度产品## 需求:将百度全部产品页面保存到本地import requestsresponse = requests.get(url='https://www.baidu.com/more/')# print(response.text)# print(response.content.decode()# 保存图片img_url = requests.get( 'https://timgsa.baidu.com/timg?image&quality=80&size=b99原创 2020-10-27 08:49:20 · 473 阅读 · 0 评论 -
爬虫案例(二)
1.开心网(1) 使用cookie登录#cookie做模拟登录 只需在请求头中添加cookie即可import requests#定义请求头headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36','Cookie': '_ref=5f8f94e847b41; _cpmuid=12969原创 2020-11-03 08:52:46 · 406 阅读 · 0 评论