scrapy框架规则爬取政务网站案例

最新推荐文章于 2024-02-23 11:45:58 发布

让我在雪地上撒点野

最新推荐文章于 2024-02-23 11:45:58 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/weixin_42301462/article/details/81023223

首先创建项目 scrapy startproject Dongguan，用pycharm打开项目Dongguan

cd到Dongguan项目文件夹，创建规则爬虫 scrapy genspider -t crawl dongguan（爬虫名称） wz.sun0769.com（爬取网页的范围）

在文件夹中创建创建start.py文件，直接运行start .py 文件就可以跑起项目

from scrapy import cmdline

#导包

cmdline.execute('scrapy crawl dongguan　-o dongguan.csv'.split())

#dongguan是你创建的爬虫名字，dongguan.csv为爬取内容的保存路径

csv为保存格式， scrapy中还有其他6中保存格式 ('marshal', 'pickle','jsonlines', 'json', 'xml')

在spider文件夹下的dongguan.py中写爬取政务网站的函数

from scrapy.linkextractors import LinkExtractor

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

让我在雪地上撒点野

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Scrapy框架爬取博客实例

小澄の博客

11-18

491

Scrapy框架爬取博客实例爬取对象Livedoor Blog博客（日本网站）爬取信息：博客链接，名字，类别，投稿时间，评论次数使用python Scrapy框架文章目录Scrapy框架爬取博客实例定义items.py在spider文件夹里创建Blogspider.py在Setting文件里添加你浏览器的信息结果输出定义items.py # -*- coding: utf-8 -*...

Python网络爬虫实例2:Scrapy框架爬取股票数据

静水流觞的博客

10-17

1034

股票数据Scrapy爬虫一、功能描述目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：scrapy 二、数据网站的确定获取股票列表：东方财富网-http://quote.eastmoney.com/stocklist.html 获取个股信息：老虎社区：https://www.laohu8.com/ 雪球：https://xueqiu.com/S/ ...

1 条评论您还未登录，请先登录后发表或查看评论

67 爬虫 - Scrapy框架入门案例

阿甘兄

08-30

445

一. 新建项目(scrapy startproject) 在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令： scrapy startproject mySpider 其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用： scrapy.cfg ：项目的配置文件 ...

Scrapy框架实例（爬取刺猬实习职位信息）

老司机开代码的博客

03-24

435

点击查看刺猬实习网站这次用的是scrapy框架爬取，爬的内容是左边分类里面的每一个分类第一页的求职信息求职信息如图：这次爬的有职位，薪水，学历，天数，地理位置思路：首先在自己创建的小蜘蛛里设置一个函数，处理开始的页面抓到所有的分类链接，然后用callback回调处理页面函数，再将提取信息传入pipelines保存。代码呈上：首先是items部分： # -*...

scrapy 用爬虫规则指定爬行轨迹自动抓取

pardon110的博客

05-29

835

需求给定爬虫起始地址，路径，获得目标页的指定内容约定路径起点首页 --> (历史)频道 --> 小说info页–> 章节详情起始页 --> 作者中心 --> 大神之光路径中的每个页面html结构都不同分析通用爬虫，写规则，用链接抽取器为便于演示，只展示起点与终点页指定内容，中间路径以爬虫引擎debug信息展示准备 scrapy 1.6 Sel...

Python技术栈学习路线

Brick的博客

12-24

1192

python技术栈，学习路线图，学习指引

Python数据分析之思维导图汇总

Goldxwang的博客

06-28

2万+

关于Python数据分析，其实网上能够找到的学习资源很多，主要分为两类：一类是提供各种资源的推荐，比如书单、教程、以及学习的先后顺序；另一类是提供具体的学习内容，知识点或实际案例。但很多繁琐而又杂乱的内容，除了给初学者增加理解和认识的噪音外，真正能够起到明确的方向指引导的，确实不多。以至于很多人一开始没有明确的方向就一头扎进去，学了很久却不知道自己到底在学什么，或者自己学了很久不知道能够做什么...

Python数据分析，学习路径拆解及资源推荐（附详细思维导图）

Python免费教程

12-30

975

合肥工业大学第六届“互联网+”大学生创新创业大赛项目计划书：AI云学习 —— 一款基于Spark构建知识图谱的人工智能学习工具

热门推荐

u25th_engineer的博客

08-11

4万+

项目名称： AI云学习 —— 一款基于Spark构建知识图谱的人工智能学习工具项目类型： “互联网+”信息技术服务业项目负责人：文华高校：合肥工业大学（宣城校区）院系：计算机与信息系（宣城校区）申报日期： 2020年7月19日文章目录1 项目概述1.1 研发背景1.2 产品概况1.3 市场优势1.4 市场预期1.5 销售预期1.6 融资方式2 产品服务与创意2.1

python爬虫爬取政府网站关键字

zzz1048506792的博客

08-08

7238

** 功能介绍 ** 获取政府招标内容包含以下关键词，就提取该标书内容保存（本地文本）1，汽车采购2、汽车租赁3、公务车4、公务车租赁5、汽车协议供货6、汽车7、租赁爬取网站 http://www.lxggzyjy.com/f/newtrade/annogoods/list?selectedProjectType=2 作者： speed_zombie 版本信息： python v3.7.4 运行...

scrapy爬取阳光政务投诉

dh0805dh的博客

05-09

369

先说好，本博客都是自己练手的，没有任何商业化什么的，如果要求删除请私聊，看到后会第一时间删掉，不要发律师函，谢谢，鸡你太美 yg.py # -*- coding: utf-8 -*- import scrapy from yangguang.items import YangguangItem #item文件里定义了几个参数，下面放items.py class YgSpider(scrapy.S...

Python爬虫获取政府网站公示数据并保存到MongoDB数据库

Hibiki's Ending

11-16

1万+

前言在上一篇文章 https://blog.youkuaiyun.com/xHibiki/article/details/84134554 中,我们介绍了Mongo数据库以及管理工具Studio3T和adminMongo的下载安装,这次,我们结合Python爬虫和第三方模块Pymongo,爬取政府网站:深圳市规划和国土资源委员会（市海洋局）,来学习MongoDB数据库和管理工具的的使用方法. 文档型数据...

对于政府网站下发的文件进行爬取,减少人去下载的过程

weixin_45342712的博客

08-01

1620

如果你对python感兴趣，我这有个学习Python基地，里面有很多学习资料，感兴趣的+Q群：688244617 import re import requests from lxml.html import etree url = 'http://www.liyang.gov.cn/default.php?mod=article&fid=163250&s99679207_st...

python scrapy之爬取 zhengfu网站

snake_son的博客

08-04

831

#encoding=utf8 import scrapy from govinfos.items import GovinfosItem class GovInfos(scrapy.Spider): # 启动爬虫的名称 name = 'govinfo' # 爬虫的范围 allowed_domains=['xzqh.mca.gov.cn'] # 爬虫的第一个url

Scrapy 规则化爬虫（1）——CrawlSpider及link_extractor

lizhixin200的博客

04-13

943

Scrapy 规则化爬虫（1）——CrawlSpider及link_extractor

用 scrapy 爬取 xml 源

木下瞳的博客

11-24

473

1.创建项目文件夹：scrapy startproject myxml 2.编辑 items 文件，定义要存储的结构化数据 3.创建一个爬虫文件用于分析 XML 源： 1)scrapy genspider -l 先查询可使用爬虫模板文件 2)scrapy genspider -t xmlfeed myxmlspider sina.com.cn 使用模板 xmlfeed 创建一个名为 myx...

Python爬取财政部财政数据链接