requests模块爬取豆瓣2020-top250
挺简陋的一个爬虫,没有爬取图片,只是排名和电影名称等基本信息,代码量很少
import re
import requests
import csv
"""
豆瓣top250为静态网页,爬取较为简单,关键在于正则匹配字符串要写对
"""
def get_content(target):
# 必要的ua头,一般网站都对ua头有检测,常见的反爬机制
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64;
原创
2021-10-14 23:10:20 ·
273 阅读 ·
0 评论