(爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

最新推荐文章于 2022-12-05 14:16:26 发布

原创

最新推荐文章于 2022-12-05 14:16:26 发布 · 933 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

该博客介绍了如何利用BeautifulSoup库配合正则表达式爬取今日头条的图集信息，并将结果存储到MongoDB数据库。作者强调了网页分析的重要性，建议多加练习AJAX和JSON处理技巧。博客附有爬取内容截图和数据库存储截图。

用beautifulsoup提取文本信息,正则匹配关键的图片信息.

最后存入数据库mongodb.

完成后的感想: 其实分析网页是最关键的一个环节.

ajax分析,json处理等等,还是需要多点练习.

下面是代码:

'''
步骤:
1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.
2. 解析返回结果,得到详情页(也就是每一个图集的url)的链接,进一步用requests请求详情页的信息
3. 分析详情页,得到图片的url,并把url保存到MongoDB数据库中
4. 多线程,提高抓取效率
工具库:beautifulsoup re pymongo数据库 requests
'''

import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from hashlib import md5
from multiprocessing import Pool

import re
import os
import json
import pymongo

# 以下是需要用到的参数, 设为全局变量既可. 也可以另存到一个配置文件config.py
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 0
GROUP_END = 10
KEYWORD = '街拍'

# pymongo  创建mongodb的链接,用于把数据存入数据库
mongo_client = pymongo.MongoClient(MONGO_URL)
mongo_db = mongo_client[MONGO_DB]

'''
经分析网站,每个图集的url是通过ajax的方式加载出