
Python爬虫
weixin_43351935
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通过爬虫反查IP地址
抓取的链接: https://site.ip138.com/71.112.190.213/加入你知道 对方的网络IP。原创 2024-03-25 11:45:38 · 729 阅读 · 0 评论 -
Python 列表保存为txt文件
保存def save_txt(str_list:list,name): with open(name,'w',encoding='utf-8') as f: for i in str_list: f.write(i+'\n')读取行 with open('weeks','r',encoding='utf-8') as f: fe=f.readlines()读取全部with open('weeks','r',encoding='utf-原创 2022-04-18 10:44:54 · 4133 阅读 · 0 评论 -
Python爬虫解析路径技巧-抓取亚马逊top-reviewers
1.写爬虫最重要的一步就是解析需要抓取信息的xpath,我是比较习惯使用这个。大家可以安装一个xpath helper2. 第一步上代码,我用的是jupyter notebook 以便边看html代码,边测试。from selenium.webdriver import ChromeOptionsimport timefrom fake_useragent import UserAgentfrom selenium import webdriverfrom selenium.webdriver原创 2021-02-27 16:16:18 · 1223 阅读 · 0 评论 -
Python爬取猪八戒网站
爬取猪八戒网站,方便你接单;1.下面是猪八戒为托管的单的链接url="https://task.zbj.com/?s=2&so=2&ss=0" #为托管的连接url_2="https://task.zbj.com/page2.html?s=2&so=2&ss=0" #第二页的连接2.第一步想网页发送get请求,解析网页的结构。获取需求的所有的网页标签。...原创 2020-03-22 17:06:28 · 3094 阅读 · 3 评论 -
爬取亚马逊bestsellers首页的链接
为了方便构造小类目的链接,你的首先知道大类目的链接,比如你 知道了大类名称之后,在其的小类目的id直接凭借到其后面就可了1.代码如下:import requestsurl='https://www.amazon.co.jp/gp/bestsellers'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64...原创 2020-03-12 14:55:40 · 860 阅读 · 0 评论 -
Python爬取图片并保存本地
好久没用requests写爬虫了,因为是国内的网站,展示没有使用代理IP,而且爬取的数据不多。1、第一步将要爬取的网页链接爬取下来。这句话有些矛盾。url=‘http://www.supe.com.cn/index.php/Project/index’,就这这个各个行业的链接抓取下来,然后保存到本地,代码是import requestsheaders={ 'User-Agen...原创 2020-03-04 12:18:26 · 7145 阅读 · 3 评论 -
Python中的cookies的使用
1、获取cookies直接获取,不行。得设置浏览器头部2、加上浏览器头部,获取了cookies。此时的cookies是一个jar对象3、将cookie的格式进行转换查看由于amazon的反爬比较强,这里用baidu.com作为案例进行演示并将cookie以字典的形式保存为json文件到本地。import jsonimport requestsfrom requests.co...原创 2020-02-28 14:13:42 · 853 阅读 · 0 评论 -
Python爬虫调试插件
1.使用xpath hepler 获取xpath路径的,可以在谷歌的扩展程序中进行添加2.第二个,postman 用来模拟爬虫的get和post请求的。免费下载地址 https://dl.pstmn.io/download/latest/windows下载之后双击安装、打开,一气呵成。用谷歌账号登陆一下。下图就是登陆之后的界面。3.国内写的ApiDebug 这个跟postman类似,...原创 2020-02-28 10:28:03 · 318 阅读 · 0 评论