爬虫实例1-爬取新闻列表和发布时间

最新推荐文章于 2023-12-20 21:07:33 发布

weixin_34112900

最新推荐文章于 2023-12-20 21:07:33 发布

阅读量817

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫 python 区块链

原文链接：https://yq.aliyun.com/articles/486565

本文介绍了一个使用Scrapy框架进行网页爬取的具体案例。通过创建一个名为shop的Scrapy项目，详细展示了从定义爬取项到实现爬虫逻辑直至处理爬取结果的全过程。案例中爬取了新闻站点的标题和发布时间，并通过pipelines处理了爬取结果。

一、新建工程

scrapy startproject shop

二、Items.py文件代码：

import scrapy

class ShopItem(scrapy.Item):

title = scrapy.Field()

time = scrapy.Field()

三、shopspider.py文件爬虫代码

# -*-coding:UTF-8-*-

import scrapy

from shop.items import ShopItem

class shopSpider(scrapy.Spider):

name = "shop"

allowed_domains = ["news.xxxxxxx.xx.cn"]

start_urls = ["http://news.xxxxx.xxx.cn/hunan/"]

def parse(self,response):

item = ShopItem()

item['title'] = response.xpath("//div[@class='txttotwe2']/ul/li/a/text()").extract()

item['time'] = response.xpath("//div[@class='txttotwe2']/ul/li/font/text()").extract()

yield item

四、pipelines.py文件代码（打印出内容）：

注意：如果在shopspider.py文件中打印出内容则显示的是unicode编码，而在pipelines.py打印出来的信息则是正常的显示内容。

class ShopPipeline(object):

def process_item(self, item, spider):

count=len(item['title'])

print 'news count: ' ,count

for i in range(0,count):

print 'biaoti: '+item['title'][i]

print 'shijian: '+item['time'][i]

return item

五、爬取显示的结果：

root@kali:~/shop# scrapy crawl shop --nolog

news count: 40

biaoti: xxx建成国家食品安全示范城市

shijian: (2017-06-16)

biaoti: xxxx考试开始报名

……………………

…………………..

本文转自老鹰a 51CTO博客，原文链接:http://blog.51cto.com/laoyinga/1940001

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34112900

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

爬取股吧指定时间段的文章标题

disuoshao7625的博客

09-05

466

这个可以作为xpath的练手项目,爬取股吧2016年6月份到2016年12月份的文章标题和发帖时间代码如下: import requests from requests.exceptions import RequestException from lxml import etree import csv def get_one_index_page(url):...

java发行时间_Java精确抽取网页发布时间

weixin_36319219的博客

02-25

359

package whu.extract.pubtime.core;import java.util.ArrayList;import java.util.Calendar;import java.util.Collections;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;i...

参与评论您还未登录，请先登录后发表或查看评论

java实现爬取新浪新闻指定天数（一段时间）的头条新闻

qq_43661601的博客

09-18

1357

目标：java实现爬取新浪新闻指定天数（一段时间）的头条新闻需要导入jar包：fastjson和Jsoup。 IDEA导入jar包办法：Intellij IDEA 添加jar包的三种方式思路：找到存新闻的网站，分析网站链接，然后遍历需要找的时间范围内的网站依次存下来即可逐步实现：新浪新闻排行然后F12在network中找第一个GetTopDataList.php…中的request UPL找到请求数据的链接复制链接打开后会出现需要把数据格式化出来，注意到开头有这个 “var comment_

用python爬取指定日期的文章

weixin_35755823的博客

02-13

781

可以使用 Python 中的爬虫库，如 BeautifulSoup 和 Requests，来爬取指定日期的文章。具体的实现方法如下：发送 HTTP 请求获取网页源代码，使用 Requests 库可以很方便地完成这一步。解析网页源代码，使用 BeautifulSoup 库可以很方便地完成这一步。提取所需的文章内容，一般需要利用 CSS 选择器等工具来选择网页中的相应部分。对于指定日期...

爬虫python 新闻,Python爬虫实例--爬取人民网新闻

weixin_39719127的博客

03-27

2490

其实我只是因为在那边评论区想评论，然后发现位置不够，所以才打算写这个博客的，然后具体的可以看我转载的文章，很详细，我这边只说一下关于txt转换为JSON格式的问题第一次写，格式可能很乱，见谅一下话不多说，直接开始吧这是未修改前得到的文本样式这里的话可以看到，爬取的文章都是按照日期整整齐齐排列的，所以看起来很舒服方便然后有些可能就算需要json格式来进行保存当时看了下评论区，发现有这个要求的也有，也...

[入门Python] 爬虫实例--爬取Baidu热搜新闻

qq_58534264的博客

01-11

2799

新手入门爬虫！

python爬虫知网实例-python爬取知网

weixin_37988176的博客

10-30

7832

Python爬虫实例爬取网站搞笑段子

09-21

这个简单的爬虫实例展示了如何使用Python的基本库实现一个基础的网络爬虫，获取并存储感兴趣的数据。然而，需要注意的是，爬虫在实际应用时必须遵守网站的robots.txt协议，尊重网站的版权，以及避免对服务器造成过大...

Python源码-爬取Hacker News.zip

最新发布

05-25

由于给定的文件信息中，文件名称列表部分只提供了一个文件名称“爬取Hacker News”，并没有具体的文件扩展名，因此我们无法得知该文件的具体类型和内容。但是，我们可以根据标题和描述提供的信息，以及标签内容，...

基于http的Java爬虫爬取百度新闻

05-06

基于http的Java爬虫爬取百度新闻

java新闻爬取

bk13323626016的博客

07-26

7020

本来想爬今日头条，在网上找了很多方法，走了很多弯路，异步刷新没能解决，本人爬虫小白。后来发现json数据和本地cookie也有关，感觉前路艰难。果断换到网易新闻，网易新闻相对来说获取数据比较简单，通过谷歌F12分析包数据，发现网易异步刷新的包和访问路径有关，通过在线json解析数据发现可以解析，这让我欣喜不已。 json数据：废话不多说，直接上代码 //网易新闻类型 S

知网爬虫——爬取某个主题下的文章标题以及发表时间

Penkace的博客

03-16

5374

前几天帮朋友做了个知网的爬虫，爬取了“新闻传播”主题下的文章标题及发表时间；自己拖拖拉拉写了2天才写完，自己还是太弱了。个人认为这个作为一个练手的爬虫小项目还是不错的，于是写了主要的步骤，代码放在我的github，有需要的朋友可以去看看或者有改进的地方指点我一下，github链接我的github——知网爬虫。 1. 爬虫知网的爬虫首先要找到合适的知网爬虫入口，建议从这个链接进入知网入口...

java爬虫抓取校园新闻_爬取全部的校园新闻

weixin_39636057的博客

02-16

233

1.从新闻url获取新闻详情：字典,anews2.从列表页的url获取新闻url：列表append(字典) alist3.生成所页列表页的url并获取全部新闻：列表extend(列表) allnews*每个同学爬学号尾数开始的10个列表页4.设置合理的爬取间隔import timeimport randomtime.sleep(random.random()*3)5.用pandas做简单的数据...

python3爬虫新浪微博关键词爬取特定内容特地时间（自定义什么时候的时间）等，有注释（日爬20000小问题）

m0_57004255的博客

04-29

7716

we搜索爬取内容时间可以自定义添加自己要爬的内容，如视频图片等功能强大自定义需要的时间段，内容的关键字，高效 from selenium import webdriver from lxml import etree from urllib import parse from time import sleep import datetime from xlutils.copy import copy import xlrd import time import re keyword = '爬虫'

基于python爬虫的热点时事新闻文章采集

qq_63042830的博客

12-20

2596

潇洒郎：Python爬取"去哪儿网"微信公众号指定年限时间的所有文章信息及文章的所有评论

潇洒郎的博客

09-02

1016

潇洒郎：Python爬取"去哪儿网"微信公众号指定年限时间的所有文章信息及文章的所有评论准备工作：由于微信网页版不能登录，不能在浏览器中F12进行抓包分析！所以使用工具Fiddler对PC版微信进行抓包，找到微信公众号的真实地址。我们准备爬取去哪儿公众号，如图，打开PC版微信，进去去哪儿公众号：点击。。。。找到文章，我们复制网址，...

时间区间数据爬取之Payload

他山之雪我山白的博客

04-29

554

python爬虫，时间区间爬取问题

爬虫获取视频基础教程

CJ130923的博客

09-29

7650

根据上篇文章的方法，选用requests+beautifulsoup爬取网站的一些小视频环境： anaconda python 3.6.1 程序设计思路明白了之后，代码就很简单 import requests from bs4 import BeautifulSoup def get_url(): url='http://699pic.com/video-sousuo-0-...

桌面爬虫软件：灵活添加爬取数量

- **蝴蝶.exe**: 可能指代一个特定的爬虫实例，它的功能可能与爬取大规模网站相关，或者执行特定的爬取任务，例如抓取视频、图片等多媒体资源。 - **蟑螂.exe**: 这个名称暗示了爬虫可能具有很强的适应性和韧性，...