python爬虫

大观:

this 与 bind:JavaScript 中的“归属感”难题

反爬方法:

1. 请求头(Headers)验证

  • 机制:检查User-AgentRefererCookie等请求头
  • 绕过方法

headers = { "User-Agent": "Mozilla/5.0...", "Referer": "https://www.example.com", "Accept-Language": "zh-CN,zh;q=0.9" }

header:采用字典数据结构

request基础使用模板:

import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0" } url = "https://www.sogou.com/web" kw=input("请输入关键字") param={ 'query':kw } response = requests.get(url=url,headers=headers,params=param)

requests使用案例:

  • [request+正则表达式爬取百度图片网的图片]

import requests import re url = "https://pic.netbian.com/" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36" } import os path = "彼岸图网图片获取" if not os.path.isdir(path): os.mkdir(path) response = requests.get(url=url,headers=headers) response.encoding = response.apparent_encoding # print(response.text) # 打印请求成功的网页源码,和在网页右键查看源代码的内容一样的 """ . 表示除空格外任意字符(除\n外) * 表示匹配字符零次或多次 ? 表示匹配字符零次或一次 .*? 非贪婪匹配 """ # src后面存放的是链接,alt后面是图片的名字 # 直接(.*?)也是可以可以直接获取到链接,但是会匹配到其他不是我们想要的图片 # 我们可以在前面图片信息看到链接都是/u····开头的,所以我们就设定限定条件(/u.*?)这样就能匹配到我们想要的 parr = re.compile('src="(/u.*?)".alt="(.*?)"') image = re.findall(parr,response.text) for content in image: print(content) # 对列表进行遍历 for i in image: link = i[0] # 获取链接 name = i[1] # 获取名字 """ 在文件夹下创建一个空jpg文件,打开方式以 'wb' 二进制读写方式 @param res:图片请求的结果 """ with open(path+"/{}.jpg".format(name),"wb") as img: res = requests.get("https://pic.netbian.com"+link) img.write(res.content) # 将图片请求的结果内容写到jpg文件中 img.close() # 关闭操作 print(name+".jpg 获取成功······")

  • [在搜狗引擎搜索关键字,讲搜索后的页面生成html文件 ]

import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0" } url = "https://www.sogou.com/web" kw=input("请输入搜索的关键字") param={ 'query':kw } response = requests.get(url=url,headers=headers,params=param) page_text=response.text fileName=kw+".html" with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text) print(fileName,"保存成功")

  • [requests爬取图片网站的图片 ]

import os import requests from urllib.parse import urljoin from bs4 import BeautifulSoup # 创建保存图片的目录 # os.makedirs('58pic_images', exist_ok=True) os.makedirs("110",) url = "https://www.58pic.com/tupian-tupian/so.html?n_order=dnum&n_page_type=2&n_more_free=?tid=922493&utm_source=baidu&sdclkid=AL2R15fNArDibLgpxOF&bd_vid=11560355579337041163" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0" } try: # 获取网页内容 response = requests.get(url, headers=headers) response.raise_for_status() html = response.text # 解析HTML soup = BeautifulSoup(html, "html.parser") # 查找所有img标签 img_tags = soup.find_all('img') print(f"找到 {len(img_tags)} 张图片") for i, img in enumerate(img_tags, start=1): # 获取图片URL(优先使用data-src,如果没有则用src) img_url = img.get('data-src') or img.get('src') if not img_url: continue # 处理相对URL img_url = urljoin(url, img_url) try: # 下载图片 img_data = requests.get(img_url, headers=headers, stream=True) img_data.raise_for_status() # 生成文件名 file_name = f"58pic_images/image_{i}.jpg" # 保存图片 with open(file_name, 'wb') as f: for chunk in img_data.iter_content(1024): f.write(chunk) print(f"已下载: {file_name}") except Exception as e: print(f"下载失败 {img_url}: {e}") except Exception as e: print(f"发生错误: {e}") print("下载完成!")

匹配方式汇总:

  1. css选择器
  2. 正则表达式(Regex)
  3. 使用如BeautifulSoup、PyQuery(基于Don树)
  4. XPath
### Python爬虫的学习资源与使用方法 Python爬虫是一种高效的工具,用于自动化的网络信息采集。由于其丰富的库支持以及简洁易懂的语法特性,Python 成为了编写网络爬虫的最佳选择之一[^3]。 #### 学习Python爬虫的基础知识 学习Python爬虫不仅涉及理论知识的理解,还需要通过实际操作来加深印象。在移动设备上也可以轻松完成这些任务,因为手机端的Python环境配置较为简便,可以随时随地进行实践练习[^1]。 #### 推荐的Python爬虫教程列表 以下是几份高质量的Python爬虫教程推荐: - **基础篇** - 《一只小爬虫》[^2] - 《Python与简单网络爬虫的编写》[^2] - **进阶篇** - 《[Python]网络爬虫(五):urllib2的使用细节与抓站技巧》[^2] - 《[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)》[^2] - **高级功能** - 《Python爬虫——抓取网页并解析HTML》[^2] - 《Python正则表达式指南》[^2] 除了上述具体的文章外,《Python爬虫新手指南及简单实战》也是一份非常适合初学者的内容,其中包含了详细的案例分析和代码演示[^3]。 #### 实践中的关键技术点 当开始构建自己的第一个爬虫项目时,需要注意以下几个方面: 1. 数据请求模块的选择,比如`requests`或内置的`urllib`。 2. HTML页面解析技术的应用,例如BeautifulSoup或者lxml库。 3. 对于复杂的数据提取需求,则可能需要用到正则表达式的辅助[^2]。 下面展示一段简单的爬虫脚本作为参考: ```python import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') titles = soup.find_all('h1') for title in titles: print(title.text.strip()) ``` 此段程序展示了如何访问目标网址,并从中提取所有的标题标签内容[^3]。 #### 工具扩展建议 如果计划进一步深入研究大数据量场景下的爬虫应用,那么像Pandas这样的数据分析框架将会非常有用。它可以方便地管理和转换所收集到的信息至结构化形式以便后续统计分析工作[^4]。 --- 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值