用beautifulsoup提取文本信息,正则匹配关键的图片信息.
最后存入数据库mongodb.
完成后的感想: 其实分析网页是最关键的一个环节.
ajax分析,json处理等等,还是需要多点练习.
下面是代码:
'''
步骤:
1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.
2. 解析返回结果,得到详情页(也就是每一个图集的url)的链接,进一步用requests请求详情页的信息
3. 分析详情页,得到图片的url,并把url保存到MongoDB数据库中
4. 多线程,提高抓取效率
工具库:beautifulsoup re pymongo数据库 requests
'''
import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from hashlib import md5
from multiprocessing import Pool
import re
import os
import json
import pymongo
# 以下是需要用到的参数, 设为全局变量既可. 也可以另存到一个配置文件config.py
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 0
GROUP_END = 10
KEYWORD = '街拍'
# pymongo 创建mongodb的链接,用于把数据存入数据库
mongo_client = pymongo.MongoClien