
爬虫
文章平均质量分 60
新手爬虫村
墨渊
爬虫爱好者
遨游在爬虫大军里
展开
-
简单 爬 取斗图网
声明 第一次 发布代码 比较菜 由于 第一次 看着代码写不会多页下载 如果有大佬 还望 指点爬取斗图网图片我就直接上代码了import requestsfrom bs4 import BeautifulSoup# url地址 headers 浏览器伪装res = requests.get('https://www.doutula.com/',headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe原创 2020-12-26 18:03:01 · 267 阅读 · 1 评论 -
爬虫使用代理
爬网页的时候,尤其是一些商用网站,如果使用本地IP很容易就会被封掉,因此我们需要在代理网站上购买代理,我使用的是代理太阳代理: http://www.taiyanghttp.com首先要在IP白名单中加入自己的IP地址选择ip提取的数量生成api链接*生成API链接,调用HTTP GET请求即可返回所需的IP结果*添加白名单接口:ty-http-d.hamir.net/index/white/add?neek=tyhttp718080&appkey=aab86175bb04bb28e8b原创 2021-11-18 15:09:48 · 807 阅读 · 1 评论 -
postman 导出python爬虫代码
postman 导出python爬虫代码import requestsurl = "https://www.baidu.com/"payload={}headers = { 'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', 'sec-ch-ua': '"Google Chrome";v="95", "Chromium";v="95", ";Not A Brand";v="99"', 'sec-ch-ua-mobil原创 2021-11-16 10:17:22 · 2238 阅读 · 0 评论 -
爬虫多线程
import requestsfrom bs4 import BeautifulSoupurl = 'http://www.bookschina.com/book_find2/default.aspx?stp=python&scate=0&f=1&sort=0&asc=0&sh=0&so=1&p=2&pb=1'res = requests.get(url)#print(res)html = res.text#抓取def sp原创 2021-11-02 11:31:30 · 196 阅读 · 0 评论 -
爬虫添加进度条
接着上一个项目改进加一个进度条代码import requestsimport osfrom bs4 import BeautifulSoupdef fetch(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' }原创 2021-10-26 19:14:23 · 818 阅读 · 0 评论 -
爬取个性签名
网址https://www.qqtn.com/qm/weimeiqm_1.html代码import requestsfrom bs4 import BeautifulSoupurl = 'https://www.qqtn.com/qm/weimeiqm_1.html'headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom原创 2021-10-25 16:27:33 · 435 阅读 · 0 评论 -
爬虫输入关键字搜索爬取图片
import requests#QQ签名def shnang(): key = input('请输入关键词:') url = 'https://www.qqtn.com/qm/?wd='+key try: r= requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(len(r.text)) print(r原创 2021-10-25 12:54:30 · 923 阅读 · 1 评论 -
爬虫复盘2BeautifulSoup4详解
获取网页是一长串的 html 代码,并不是我们想要的数据解析网页安装BeautifulSoup4pi3 install bs41.导入bs4库from bs4 import BeautifulSoup2.创建beautifulsoup对象先创建一个demo网页html = """<html><head><title>The Dormouse's story</title></head><body><p clas原创 2021-09-06 09:06:49 · 193 阅读 · 0 评论 -
爬虫复盘3 爬虫基础-实现方式
网络爬虫的第一步结束根据url 获取 网页html信息在python3可以去使用urllib.request 和requests 进行网页数据获取这里我们用requesturllib 库一般苦涩难用不推荐新手用requests 库是第三方库,需要我们自己安装pip3 install requests1.获取网页内容import requestsurl = 'https://www.bxwxorg.com/read/20/'# 获取网页内容response = requests.get(u原创 2021-09-03 11:52:51 · 265 阅读 · 0 评论 -
爬虫复盘1
1.获取网页urlurl:统一资源定位符,是要爬取目标网页的地址,例如豆瓣电影:https://movie.douban.com/2.发出请求 获得响应用户在浏览器输入网址之后,经过DNS 服务器,找到服务器主机,向服务器发出访问请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来呈现给用户3.提取所需要数据服务器返回给浏览器的数据包括HTML 片段、XML 文档、JSON 文件等数据。针对不同数据选择不同的方式进行数据提取常用解析方式有re 正则表达式;原创 2021-09-03 11:20:44 · 157 阅读 · 0 评论 -
requests使用代理ip访问网站
代理ip是经常使用且不可缺少的一部分1.request使用代理ip的方法# -*- coding: utf-8 -*-import requestsurl = "http://myip.kkcha.com"#使用proxies构建一个字典的形式使用proxies = {"http": "171.214.214.185:8118"}response = requests.get(url=url, proxies=proxies)print(response.text)查看本地ip地址原创 2021-06-13 21:14:29 · 5202 阅读 · 0 评论 -
fiddler抓包分析豆瓣250
使用fiddler进行抓包分析打开fiddler设置认证证书fiddler证书地址开始使用fiddler进行分析鼠标点击刚刚哪个请求右键选中copy这个选项在选择Just URL这个选项拷贝url地址我们把拷贝的url复制过来到浏览器看一下这里可以看到我们要的数据就在网页里面page_limit=20这里是 偏移量的意思这里面可以改变他的值提取最大一页就是20个数据page_start=0 这里是指的是页数 当前第几页**.代码如下import requestsimpo原创 2021-05-28 11:22:14 · 528 阅读 · 0 评论 -
bs4爬取笔趣阁小说
今天的实战是爬取小说爬取一个偏热们国漫吞噬星空# -*- coding:UTF-8 -*-import requestsimport osfrom bs4 import BeautifulSoupdef mkdir(path): folder = os.path.exists(path) folder = path if not os.path.exists('./xiaoshuo/'): os.makedirs(path) #切换到当前目录 os.chdir(pat原创 2021-04-21 21:27:19 · 803 阅读 · 1 评论 -
动态网页抓取一
抓取动态网页 网页分为动态和静态静态页面:非结构化数据:HTML处理方式:正则表达式,xpath, beautifulsoup4静态页面中的数据都包含在网页的HTML中(一般都是get请求)所以可以直接在网页的HTML中提取数据关键词一般都以查询字符串的方式拼接在URL中分析URL的变化可以进行多页爬取动态页面结构化数据:json,xml等处理方式:直接转化为python类型动态页面和静态页面最主要的区别就是当数据刷新的时候用了ajax技术,刷新时从数据库查询数据并重新渲染到.原创 2021-04-10 19:59:10 · 879 阅读 · 4 评论 -
爬虫入门bs4之多线程
今天简单来讲一下爬虫解析库bs4还有一点多线程下面分步骤几个小步骤来讲特此声明 本人不足的地方还望指出因为用到了几个模块所以要装一下pip isntall bs4pip install requests1.获取响应import requestsresposne = requests.get('https://www.baidu.com/')print(resposne )这里是向服务器发起响应对百度发起来一个请求等待服务器返回响应结果是200表示请求成功这里原创 2021-03-31 14:16:14 · 1054 阅读 · 10 评论 -
爬虫介绍
今天的要讲的内容是爬虫相信大家的很熟悉吧下面来带大家简单认识一下什么爬虫一、爬虫定义与分类网络爬虫,通过一定的规则策略,自动抓取、下载互联网上网页,在按照某些规则算法对这些网页进行数据抽取,形成所需要的数据集。按照抓取网站对象来分类,可以分为2类爬虫通用爬虫:类似百度、谷歌这样的爬虫,抓取对象是整个互联网,对于网页没有固定的抽取规则。 对于所有网页都是一套通用的处理方法。垂直爬虫:这类爬虫主要针对一些特定对象、网站,有一台指定的爬取路径、数据抽取规则。比如今日头条,它的目标网站就是所有的新闻类网原创 2021-03-31 11:40:10 · 1425 阅读 · 0 评论 -
爬取笑话大全
简单练习拿来的手 不喜勿喷import requestsfrom bs4 import BeautifulSoupurls = 'https://xiaohua.zol.com.cn/lengxiaohua/'headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0'}html = requests.get(urls,headers=headers原创 2021-03-22 10:54:24 · 270 阅读 · 0 评论