图片网站数据采集

最新推荐文章于 2024-08-30 10:42:43 发布

原创最新推荐文章于 2024-08-30 10:42:43 发布 · 994 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #beautifulsoup

数据采集专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何使用Python从指定网站抓取非结构化数据，特别是图片，通过requests库获取HTML，解析图片URL，利用线程实现多线程下载图片。作者提供了完整的代码示例，包括使用fake_useragent库生成随机User-Agent和使用lxml库处理HTML。

部署运行你感兴趣的模型镜像

本文主要是学习如何采集非结构化的数据，图片。

说明：代码仅供学习，并非其他用途。

这样我们看到想要的图片，就能拿下，看到想要的美女图片，直接拿下好吧！

废话不多说，直接上代码。

第一步：确定图片的网址

这里我选择的是

https://sc.chinaz.com/tupian/

然后点击选择自己喜欢的类别（人物图片）【狗头保命】，把把网址拿下。

https://sc.chinaz.com/tupian/renwutupian.html

第二步：获取每张图片的地址

这个网址下面解析的内容是解析不到图片的数据的，只能解析到图片所在的地址。

通过requests.get请求方法获得这个网址的HTML，然后通过开发者选项查看网页每张图片的元素div标签位置。

找到所有图片所在的HTML标签位置，然后再解析每张图片所在标签位置的href属性获取图片的地址

这里有个坑，就是获取的href属性值并不是图片实际的地址，只是图片详情页面所在的网址，所以，这里我就直接去img标签下的data-original属性，src属性也是可以的，这样就获得了一张图片的url地址了，其他图片的地址用相同的方法获取url。

代码：

response = requests.get("https://sc.chinaz.com/tupian/jianzhutupian.html", headers="请求头,就是user-agent")
response.encoding = "utf-8"
html = response.content
tree = etree.HTML(html)
divs = tree.xpath('/html/body/div[3]/div[2]/div')
url_list = []
for div in divs:
   href = 'https:' + div.xpath('./img/@data-original')[0]
   title = div.xpath('./img/@alt')[0]
   url_list.append({"href": href, "title": title})

print(url_list)

代码的请求头就用你自己的电脑的吧，这里就没写了【狗头】地址用地点保存到列表里面了。

第三步：获取图片并保存

同样使用requests.get()方法获取图片地址的二进制数据，然后保存到自己的图片目录下

for item in url_list:
    url = item['url']
    title = item['title']
    response = requests.get(url, headers=self.headers)
    response.encoding = "utf-8"
    with open("./picture/{}.jpg".format(title), "wb") as f:
        f.write(response.content)
        print(f"{url}下载完成")

这里图片量比较大的时候，解析时间较长，所以我就使用了线程获取图片并保存图片，并对上面的代码进行了封装，这里的请求头，我使用了fake_useragent第三方库生成的请求头，命令行需要执行pip install fake_useragent 一下就可以了。

线程知识，我使用了threading，大家也可以pip install threading一下就可以了，threading下的Thread方法，这个方法传入的参数是执行的函数名target，和函数需要传入的参数args(按顺序写)，然后遍历线程，进行回收线程。

# 多线程爬取图片
for picture_url in self.picture_urls:
    task = threading.Thread(target=self.get_picture, args=(picture_url['href'], picture_url['title']))
    task.start()

# 等待线程完成
for t in threading.enumerate():
    task.join()

图片数据采集如上，一起进步，一起学习鸭！有什么错误或疑问，望评论区交流或私聊我呀。

详细的如下

完整代码：

import threading
import requests
from lxml import etree
from fake_useragent import UserAgent


class PictureCrawler():
    def __init__(self, url):
        self.url = url
        self.ua = UserAgent()
        self.headers = {
            "User-Agent": self.ua.random
        }
        self.picture_urls = []

    # 获取图片的url
    def get_picture_url(self):
        response = requests.get(self.url, headers=self.headers)
        response.encoding = "utf-8"
        html = response.content
        tree = etree.HTML(html)
        divs = tree.xpath('/html/body/div[3]/div[2]/div')
        for div in divs:
            href = 'https:' + div.xpath('./img/@data-original')[0]
            title = div.xpath('./img/@alt')[0]
            self.picture_urls.append({"href": href, "title": title})
            # print(href, title)

    # 获取图片并保存
    def get_picture(self, url, title):
        response = requests.get(url, headers=self.headers)
        response.encoding = "utf-8"
        with open("./picture/{}.jpg".format(title), "wb") as f:
            f.write(response.content)
        print(f"{url}下载完成")

    # 运行方法
    def run(self):
        self.get_picture_url()
        # 多线程爬取图片
        for picture_url in self.picture_urls:
            task = threading.Thread(target=self.get_picture, args=(picture_url['href'], picture_url['title']))
            task.start()

        # 等待线程完成
        for t in threading.enumerate():
            task.join()


if __name__ == '__main__':
    url = 'https://sc.chinaz.com/tupian/jianzhutupian.html'
    task = PictureCrawler(url)
    task.run()

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本