python 3 爬虫 图片 菜鸟爬实例

这篇博客介绍了Python 3爬虫如何实现网站图片的抓取,包括如何将图片写入指定文件和优化爬虫代码。博主强调关注他以获取更多持续更新的内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取网站  

http://616pic.com/beijing/

先上码


怎么写入到指定的文件 , 怎么更简洁爬虫  , 关注我!!!  持续更新!!!


原理和前面那个一样

# _*_coding:utf-8_*_
from bs4 import BeautifulSoup
import urllib.request
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\
 Chrome/67.0.3396.62 Safari/537.36'}
url = r"http://616pic.com/beijing/"
req = urllib.request.Request(url, headers=header)
response = urllib.request.urlopen(req)
soup = BeautifulSoup(response, 'html.parser')
result = soup.findAll(attrs={'class': 'lazy'})
for i in result:
    i = str(i)
    i = i.split('nal=\"', 1)[1].split('\" src')[0]
    print(i, type(i), '\n')
    res = requests.get(i)
    j = i.split('bg', 1)[1].split('/', 4)[4].split('.jpg', 1)[0]
    print(j)
    new_pic = open('./%s.jpg' % j, 'wb')
    new_pic.write(res.content)
    new_pic.close()
print('finished')

<think>好的,用户正在寻找Python爬虫相关的案例或教程,特别是实例、项目或案例。我需要根据提供的引用内容来整理相关信息,并生成相关问题。首先,查看用户提供的引用资料: 引用[1]提到了豆瓣电影排行榜的案例,涉及requests库、JSON模块、异步加载和局部加载。引用[2]和[3]都提到了requests库的安装和使用,特别是GET和POST请求的示例。引用[4]提到了使用BeautifulSoup解析HTML,提取特定标签的内容。 用户可能需要具体的步骤和代码示例,所以需要将这些引用中的案例分门别类,并给出简要说明。例如,豆瓣电影案例属于动态数据抓取,而引用[3]中的POST请求示例属于基础请求方法,引用[4]属于静态页面解析。 接下来,按照用户的要求生成相关问题,需要围绕爬虫的基础、动态页面处理、数据解析、项目实战和高级技巧展开。确保问题覆盖用户可能感兴趣的各个方面,比如反策略、效率优化等。 同时,要注意回答结构清晰,分点说明,每个案例或教程都有对应的引用标注。检查是否有遗漏的引用内容,确保每个引用都被合理利用。比如,引用[3]中的POST请求和引用[4]的BeautifulSoup使用需要分别提到。 最后,生成的相关问题要能够引导用户进一步深入学习,涵盖基础、进阶和实战应用,帮助他们找到适合自己的学习路径。</think>以下是根据提供的参考资料整理的Python爬虫案例与教程指南,包含基础入门到进阶实战的完整路径: --- ### 一、Python爬虫基础案例 1. **HTTP请求基础** - 使用$requests$库发送GET/POST请求 ```python # GET请求示例(引用[2][3]) import requests response = requests.get("https://www.baidu.com") print(response.text) # POST请求传参(引用[3]) data = {"name": "hezhi", "age": 20} response = requests.post("http://httpbin.org/post", params=data) print(response.text) ``` 2. **静态网页解析** - 使用$BeautifulSoup$提取标签内容(引用[4]) ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, &#39;html.parser&#39;) for span in soup.find_all(&#39;span&#39;, class_=&#39;item_hot_topic_title&#39;): print(span.text) ``` --- ### 二、动态数据抓取实战 1. **豆瓣电影排行榜案例** - 目标:获取电影名称、评分、评论数等数据 - 技术点: - 分析异步加载的JSON数据(引用[1]) - 处理局部加载的页面结构 - 使用开发者工具定位API接口 ```python # 示例代码片段(引用[1]) import requests url = "https://movie.douban.com/j/search_subjects" params = {"type": "movie", "tag": "热门", "page_limit": 50} response = requests.get(url, headers=headers, params=params) data = response.json() ``` --- ### 三、综合项目进阶 | 项目类型 | 技术栈 | 难点解析 | |----------------|-------------------------|------------------------| | 电商价格监控 | requests+Scrapy+MySQL | 反爬虫绕过、定时任务 | | 社交媒体舆情分析| Selenium+PySpark | 动态渲染、大数据处理 | | 学术论文采集 | Scrapy+PDF解析 | 复杂URL管理、文件存储 | --- ### 四、学习资源推荐 1. **系统教程** - 《Python爬虫开发与项目实战》(适合进阶) - 菜鸟教程爬虫专题(适合基础) 2. **开源项目参考** - GitHub搜索关键词:`scrapy-demo` `web-crawler` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值