头条网下载美女图 ------ python学习之

今日头条美女图爬虫实战

最新推荐文章于 2025-04-17 00:10:02 发布

转载最新推荐文章于 2025-04-17 00:10:02 发布 · 964 阅读

本文分享了一款用于从今日头条网站爬取特定关键词图片的Python爬虫代码。该爬虫能够搜索并下载高清图片，包括解析JSON响应、图片链接转换等步骤，并提供了完整的文件保存流程。

从头条网下载美女图，转载自

yaoyefengchen的专栏

原地址为：https://blog.youkuaiyun.com/yaoyefengchen/article/details/79100388

网站有改动，原代码不能用了，因此改了下，目前可用。

#-*- coding: utf-8 -*-

import os
import re
import json
import requests
from urllib.parse import urlencode

def get_one_page(offset, keyword):
'''
获取网页html内容并返回
'''
paras = {
'offset': offset, # 搜索结果项开始的位置
'format': 'json', # 返回的数据格式
'keyword': keyword, # 搜索的关键字
'autoload': 'true', # 自动加载
'count': 20, # 每次加载结果的项目数
'cur_tab': 3, # 当前的tab页索引，3为“图集”
'from': 'gallery' # 来源，“图集”
}

url = 'https://www.toutiao.com/search_content/?' + urlencode(paras)
try:
# 获取网页内容，返回json格式数据
response = requests.get(url)
# 通过状态码判断是否获取成功
if response.status_code == 200:
return response.text
return None
except RequestException:
return None

def parse_one_page(html):
'''
解析出组图网址,并将网页中所有图集的标题及图片地址返回
'''
urls = []
data = json.loads(html)
if data and 'data' in data.keys():
for item in data.get('data'):
page_urls = []
title = item.get('title')
image_detail = item.get('image_list')
for i in range(len(image_detail)):
# 获取large图片地址
url = image_detail[i]['url']
# 替换URL获取高清原图
url = url.replace('list', 'origin')
page_urls.append('http:'+url)
urls.append({'title': title,'url_list': page_urls})
return urls

def save_image_file(url, path):
'''
保存图像文件
'''
ir = requests.get(url)
if ir.status_code == 200:
with open(path, 'wb') as f:
f.write(ir.content)
f.close()

def main(offset, word):
html = get_one_page(offset, word)
urls = parse_one_page(html)

# 图像文件夹不存在则创建
root_path = word
if not os.path.exists(root_path):
os.mkdir(root_path)

for i in range(len(urls)):
print('---正在下载 %s'%urls[i]['title'])
folder = root_path
if not os.path.exists(folder):
try:
os.mkdir(folder)
except NotADirectoryError:
continue
except OSError:
continue

url_list = urls[i]['url_list']
for j in range(len(url_list)):
path = folder + '/' + str("%02d"%i) + str("%02d"%j) + '.jpg'
if not os.path.exists(path):
save_image_file(urls[i]['url_list'][j], path)

if __name__ == '__main__':
# 抓取2000个图集，基本上包含全部图集

while True:
word = input('请输入从今日头条下载的照片名称（或"q"退出）：\n')
if word == 'q':
break
else:
for i in range(200):
main(i*20, word)