使用python抓取落网期刊图片
虽然使用python开发也将近两年了,但工作中使用python更多处理业务逻辑,数据加工等,难免有些枯燥、乏味。一直听闻python在web数据爬取、数据分析上有无可比拟的优势,于是抱着扩展下知识面,找点乐子的心理,去看了scrapy、beautifulsoup等库的说明文档。刚好有一个我一直很喜欢的电台网站,专门介绍世界各地的独立音乐,里面不定期地更新歌单,类型包括华语、电子、民谣、金属等等,在每一期都会配上一张图片,个人觉得非常特别,和期刊的主题也很搭。所以便有了下面的这个脚本,它可以帮助我把整个落网的期刊图片爬取下来,并以期刊主题命名:
#coding:gbk
import os
import bs4
import requests
# 保存期刊图片的路径,你可以换成你自己的
base_dir = r"F:\落网电台"
def main():
start_url = 'http://www.luoo.net/music/'
#os.makedirs('落网电台')
parse_detail(start_url)