scrapy爬取新浪微博关键字微博

最新推荐文章于 2024-11-23 16:57:50 发布

原创

最新推荐文章于 2024-11-23 16:57:50 发布 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

本文介绍如何利用Python的Scrapy框架抓取新浪微博上的特定关键字内容，包括设置项目结构、编写爬虫、处理登录验证以及数据保存等关键步骤。

#weibo.py
# -*- coding: utf-8 -*-
from scrapy import Spider, Request, FormRequest
import re
from weibosearch.items  import WeiboItem
import  json


class WeiboSpider(Spider):
    name = "weibo"
    allowed_domains = ["weibo.cn"]
    search_url = 'https://weibo.cn/search/mblog'
    max_page=100

    cookie_raw=''#插入自己的cookie
    headers={
        'Accept': ' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': ' gzip, deflate, br',
        'Accept-Language': ' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Cache-Control': ' max-age=0',
        'Connection': ' keep-alive',
        'Content-Type': ' application/x-www-form-urlencoded',
        'Host': ' weibo.cn',
        'Origin': ' https://weibo.cn',
        'Upgrade-Insecure-Requests': ' 1',
        'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

salome_

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫实战：基于 Scrapy 框架的微博数据爬取研究

ylfhpy的博客

04-17

953

通过采用异常处理、代理池、并发处理和去重操作等策略，有效应对微博平台的反爬机制和爬取过程中可能出现的各种问题，确保数据的完整性和准确性。在学术领域，微博数据可以为社会学、心理学、传播学等学科的研究提供丰富的实证数据。根据不同的错误类型，如 HTTP 错误、DNS 解析错误、超时错误等，记录相应的错误信息，方便开发者了解请求失败的原因，以便进行后续的调试和优化。结合自然语言处理和机器学习技术，对爬取到的微博数据进行更深入的分析和挖掘，如情感分析、主题建模、热点发现等，为用户提供更有价值的信息和决策支持。

selenium爬取新浪微博

(-_-)

04-17

1703

逻辑很简单，先登录之后，搜索一个关键字，爬取内容注意使用mongodb数据库，注意update_one自带去重。 tqdm添加进度条无头浏览器不加载图片使用scrapy的selector解析页面 from selenium import webdriver from scrapy import Selector import time import pymongo from tqd...

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

luxuriant8824 2019.01.24
你好，我一直安装不了weibosearch，百度了很久都不行，请问有什么办法可以解决吗？还有我最近也在研究重庆公交车事件，如果方便的话可不可以分享一下数据给我，万分感谢。我的邮箱：guanhui0910@163.com
- salome_回复luxuriant8824 2019.02.12
  [reply]weixin_41069254[/reply] weibosearch不是python包的名字，是我项目的名字，数据因为量太小（代码太垃圾就爬了就几百条）被我删掉了，不好意思，没帮到你。