爬虫框架scrapy的使用，模拟浏览器无界面形式selenium，获取随时更新的数据，保存数据库，爬取随时变化的网页，爬取金十网数据，MongoDB实现增量更新，简单的网络监控

最新推荐文章于 2025-03-27 16:20:29 发布

原创最新推荐文章于 2025-03-27 16:20:29 发布 · 1.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#MongoDB增量保存更新 #scrapy的使用 #python的简单网络监控 #数据更新

Python的常见库使用同时被 3 个专栏收录

40 篇文章

订阅专栏

Python的爬虫使用案例

34 篇文章

订阅专栏

一只网络上的虫（爬虫实例）

31 篇文章

订阅专栏

本文介绍了一种使用Python的Scrapy框架和Selenium实现的增量爬虫，专门用于爬取金十数据网站的实时财经新闻。爬虫通过Chrome无头浏览器获取动态加载的数据，利用正则表达式和XPath解析新闻内容，并通过MongoDB存储未重复的新闻条目。此外，还实现了定时任务，每隔30秒自动运行爬虫，确保数据的实时更新。

获取金十数据网页，更新数据，增量获取其内容。

环境：pycharm,mongoab,win7,python3.7

链接：https://pan.baidu.com/s/1MpZM8XJoCxBlmsSzg2WY3w
提取码：muqe

增量获取，更新数据，有和数据中不一样的保存，一样的直接返回None,不使用数据库。

import pymongo
from pymysql import connect
from scrapy.exceptions import DropItem
from scrapy.conf import settings
class MongoPipeline(object):
    def open_spider(self,spider):
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        dbName = settings['MONGODB_DBNAME']
        self.client = pymongo.MongoClient(host=host, port=port)
        tdb = self.client[dbName]
        self.post = tdb[settings['MONGODB_DOCNAME']]
    def process_item(self, item, spider):
        if not self.post.find_one({'date_id': item['date_id']}):
            self.post.insert(item)
            return item
    def close_spider(self,spider):
        self.client.close()

解析网页数据

import scrapy
from selenium import webdriver
from scrapy import signals
import re
class JinshiSpider(scrapy.Spider):
    name = 'jinshi'
    allowed_domains = ['jinshi.com']
    start_urls = ['https://www.jin10.com/']

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = super(JinshiSpider, cls).from_crawler(crawler, *args, **kwargs)
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        spider.chrome = webdriver.Chrome(chrome_options=options)
        crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)
        return spider

    def spider_closed(self, spider):
        spider.chrome.quit()
        print('一次爬取结束-----等待下次循环爬取')

    def parse(self, response):
        contents = response.xpath('//div[@class="jin-flash"]/div[@id="J_flashList"]')
        for content in contents:
            dates = content.xpath('//div[@class="jin-flash"]/div[@id="J_flashList"]//div/@data-id').extract()
            infos = content.xpath('//div[@class="jin-flash"]/div[@id="J_flashList"]//div[@class="jin-flash_b"]').extract()
            date_ids = re.findall(r'<div id="(\d+)" data-id=".*?" class=".*?">', response.text, re.DOTALL)
            for date_id,date,info in zip(date_ids,dates,infos):
                news = {'info':info}
                for neirong in news.values():
                    base_url = 'https:'
                    wenzhanglianjie = '阅读更多'
                    wenzi = re.sub(r'<.*?>', '',neirong).strip().strip('\u200b')
                    wenzi_text = wenzi.replace('\n', '').replace('\t\t\t\t\t\t\t\t\t\t\t\t\t','  ').replace('\t\t\t\t\t\t\t\t\t\t\t','  ').replace('\t\t\t\t\t\t','  ').replace('\t\t\t\t\t\t\t\t','   ').replace('\t\t','')
                    gengduo  = re.compile('<a href="(.*?)" target="_blank" class="jin-flash_text-more1">阅读更多<i class="jin-icon jin-icon_rightArrow"></i></a>')
                    gengduo_url = ''.join(gengduo.findall(neirong))
                    wenzi_href = re.compile('<h4 class="jin-flash_data-title"><a href="(.*?)" target="_blank">.*?</a></h4>')
                    wenzi_href_url = base_url+''.join(wenzi_href.findall(neirong))
                    photo = re.compile('<img class="J_lazyImg" data-original="(.*?)" src=".*?">')
                    photo_url = base_url+''.join(photo.findall(neirong))
                    yield {'date_id':date_id,'date': date, 'wenzi_text': wenzi_text,'gengduo_url':gengduo_url,'wenzi_href_url':wenzi_href_url,'photo_url':photo_url}

爬虫30秒，启动一次，30秒访问一次网页，找出网页变化

import os
import time
if __name__ == '__main__':
# os.system('pwd')
    while True:
        os.system("scrapy crawl jinshi")
# 每30秒执行一次　
        time.sleep(30)

解决访问者提问的问题，一个网站，加载数据怎么socket.io怎么爬取，可以爬取相应的对接接口

4 条评论

qq_37976095 2020.03.22
博主您好，网盘链接被删了，可以发我一份吗？ qq1832257191

企鹅Babe 2019.02.21
博主您好，想请问一下金十数据网站上有一些通过socket.io动态获取的数据用此方法可以爬到吗？
- 学无止境-程序猿回复企鹅Babe 2019.02.28
  使用websocket爬取数据，爬取这个股票类的数据，上文所使用的是爬取网站新闻，会遇到延时，要是遇到股票类变化的话，可能数据紊乱
- 学无止境-程序猿回复企鹅Babe 2019.02.28
  动态加载？我用得是无界面浏览器啊，selenium+chromedriver模拟，加载的数据是可以得到的就是速度会慢点，毕竟是30秒扫描一回的，意思就是数据比原网站更新会晚上一分钟左右，但是数据是完整的，可以爬取。