(爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

该博客介绍了如何利用BeautifulSoup库配合正则表达式爬取今日头条的图集信息,并将结果存储到MongoDB数据库。作者强调了网页分析的重要性,建议多加练习AJAX和JSON处理技巧。博客附有爬取内容截图和数据库存储截图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用beautifulsoup提取文本信息,正则匹配关键的图片信息.

最后存入数据库mongodb.

完成后的感想: 其实分析网页是最关键的一个环节.

ajax分析,json处理等等,还是需要多点练习.

 

下面是代码:

'''
步骤:
1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.
2. 解析返回结果,得到详情页(也就是每一个图集的url)的链接,进一步用requests请求详情页的信息
3. 分析详情页,得到图片的url,并把url保存到MongoDB数据库中
4. 多线程,提高抓取效率
工具库:beautifulsoup re pymongo数据库 requests
'''

import requests
from urllib.parse import urlencode
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from hashlib import md5
from multiprocessing import Pool

import re
import os
import json
import pymongo

# 以下是需要用到的参数, 设为全局变量既可. 也可以另存到一个配置文件config.py
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'
GROUP_START = 0
GROUP_END = 10
KEYWORD = '街拍'

# pymongo  创建mongodb的链接,用于把数据存入数据库
mongo_client = pymongo.MongoClien
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值