selenium爬取新浪微博

最新推荐文章于 2022-11-03 21:03:12 发布

原创

最新推荐文章于 2022-11-03 21:03:12 发布 · 1.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#selenium+python

本文介绍了一个利用Selenium登录新浪微博并搜索关键字，爬取内容的过程。内容抓取后，通过MongoDB数据库进行存储，利用update_one实现去重功能。同时，通过tqdm添加进度条以监控爬取进度。为了提高效率，采用无头浏览器并禁载图片，解析页面则采用了Scrapy的selector工具。

逻辑很简单，先登录之后，搜索一个关键字，爬取内容

注意

使用mongodb数据库，注意update_one自带去重。
tqdm添加进度条
无头浏览器
不加载图片
使用scrapy的selector解析页面


from selenium import webdriver
from scrapy import Selector
import time
import pymongo
from tqdm import tqdm


# 链接到mongodb
client = pymongo.MongoClient('localhost', 27017)
# 使用名叫weibo的数据库
db = client.weibo

chrome_options = webdriver.ChromeOptions()
# 配置不加载图片
prefs = {
   
   "profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
# 配置无头浏览器
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)

# browser = webdriver.Chrome()

# 打开登陆页面
browser.get(