Python爬虫入门【18】： 36氪(36kr)数据抓取 scrapy

最新推荐文章于 2024-04-23 14:08:57 发布

原创

最新推荐文章于 2024-04-23 14:08:57 发布 · 981 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Python #Python爬虫 #数据挖掘 #Python基础

本文介绍了使用Python的Scrapy框架抓取36氪网站新闻数据的过程，包括分析数据加载方式、创建Scrapy项目、编写URL生成器、解析数据以及数据持久化。通过抓取和分析36kr的瀑布流新闻，总计获取了约条文章，为后续的数据分析打下基础。

1. 36氪(36kr)数据----写在前面

今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备

36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。

网址 https://36kr.com/

2. 36氪(36kr)数据----数据分析

36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，基于此，基本可以判断它是ajax异步的数据，只需要打开开发者工具，就能快速的定位到想要的数据，我们尝试一下！

捕获链接如下

https://36kr.com/api/search-column/mainsite?per_page=20&page=1&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=2&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=3&_=1543840108547
https://36kr.com/

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

未衬老师

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

12-03

2万+

1. 写在前面今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备的，预计在12月底，爬虫大概写到50篇案例的时刻，将会迎来一个新的内容，系统的数据分析博文，记得关注哦~ 36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。网址 https://36kr.com/ 2. 数据分析 36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台...

Python爬虫实战：解决网页编码问题与高效数据抓取

最新发布

2201_76125261的博客

07-18

410

字符编码是将字符集中的字符映射到二进制数据的规则系统。简单来说，它定义了如何将人类可读的文本转换为计算机可以存储和传输的二进制形式，以及如何将这些二进制数据重新转换回可读文本。内置编码处理chardet库：Google开发的编码检测库cchardet库：chardet的C语言加速版本requests库的编码处理：自动处理响应编码BeautifulSoup的编码处理：自动检测文档编码。

3 条评论您还未登录，请先登录后发表或查看评论

python ajax爬虫 --36Kr为例

soloflac的博客

05-10

3489

本文转自我的个人博客最近在倒腾ajax爬虫，顺便记录一下过程。以36Kr “早期项目” 一栏为例，大致分为如下两步。解析索引页难点在于如何获取索引页的url。浏览器打开36Kr,按F12打开开发者工具，切换到Netwotk 面板。AJAX 一般是通过 XMLHttpRequest 对象接口发送请求的，XMLHttpRequest 一般被缩写为 XHR。所以点击XHR，清空监听到的内容。如下图:点

python-关于爬虫爬取36kr数据

Ch_zhenhua的博客

08-24

1559

import json import requests import re class Kr36(object): def __init__(self): # 利用首页 self.url = 'https://36kr.com/' self.headers = { 'User-Agent': 'Mozilla/5....

[完整爬虫]java爬虫基础对36Kr快讯数据进行爬取以及数据筛选过滤

qq_41873771的博客

10-24

1199

36Kr 也叫36氪,是一个我非常喜欢的网站,网罗天下资讯,而且页面整洁资讯一目了然,极大的开拓眼界,许多不管是金融方面科技方面我感觉是最新最全面,当然最终是准备爬取一下上面的资讯,当然是不会对对方服务器造成压力的情况下进行的爬取.

Python爬虫_爬取36kr

abcdasdff的博客

08-21

1346

Python3.6环境 from lxml import etree import requests #输入页数,得到网址 def wb_url(page_num): for num in range(1, page_num+1): url = 'https://36kr.com/api/search-column/mainsite?per_page=20&...

Python爬虫入门教程【18】： 36氪(36kr)数据抓取 scrapy

Python追梦

07-26

1099

1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备 36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。网址 https://36kr.com/ 2. 36氪(36kr)数据----数据分析 36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，基于此，基本可以判断它是ajax异步...

【Python】36氪(36kr)数据抓取 scrapy

Python追梦

07-24

586

python爬虫 - 爬取html中的script数据（36kr.com新闻信息）

BullKing8185的博客

04-23

1189

python爬虫 - 爬取html中的script数据（36kr.com新闻信息） 1. 分析页面内容数据格式 2. 使用re.findall方法，爬取新闻 3. 使用re.search 方法，爬取新闻

36krCrawler:采集36氪上所有帖子数据的爬虫，可采集后供数据分析的人测试使用

06-21

36krCrawler 采集36氪上所有帖子数据的爬虫，可采集后供数据分析的人测试使用。运行mainClass即可。采集的数据会放到data文件，目前有四个字段。 url#title#author#time#content data文件里是采集好的一批数据，供参考使用。

抓取36kr的滴滴报道共1996篇

11-01

抓取36kr关于滴滴的报道前2000篇，代码稍后可能会放出看时间是否允许，也可以私信我

爬取新闻网站新闻列表的python程序

04-23

本程序可以爬取新闻网站的新闻列表，本代码以中国地质大学（武汉）官网为例，如果需要更换，可以直接更换baseURL，然后打开控制台分析代码结构，适当修改即可。

Python如何爬取微信公众号文章和评论(基于 Fiddler 抓包分析)

01-20

背景说明感觉微信公众号算得是比较难爬的平台之一，不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制)，但后面会开始整理写一些实战出来。简单介绍下本次的开发环境： python3 requests psycopg2 (操作postgres数据库) 抓包分析本次实战对抓取的公众号没有限制，但不同公众号每次抓取之前都要进行分析。打开Fiddler，将手机配置好相关代理，为避免干扰过多，这里给Fiddler加个过滤规则，只需要指定微信域名mp.weixin.qq.com就好： Fiddler配置Filter规则平时关注的公众号也比较多，本次实战以“36氪

爬虫-36kr-接口分析-191016

pyhui的技术博客

10-16

1627

36kr爬虫目标网站首页_36氪 https://36kr.com/ 需求写出爬取的代码要爬所有的文章标题与文章url 分析网站找接口，首页的文章内容在哪里 Request URL: https://36kr.com/ 找接口，第二页接口直接在链接中 # 获取下一页内容 # 下一页url = 获取下一页内容（第一页HTML） # 思...

Python+scrapy爬取36氪网

zhulu52166的博客

10-26

2083

Python+Scrapy爬取36氪网新闻一.准备工作： ①安装python3 ②安装scrapy ③安装docker，用来运行splash，splash是用来提供js渲染服务（python中还需利用pip安装scrapy-splash 库）注意：win10需要安装docker客户端（https://www.docker.com/），Linux的安装就比较简单了（自行百度）。安装上...

02-18 36kr文章爬取-1

weixin_46400833的博客

02-18

603

问题： 1、动态加载的url通用模板如何设置？ 2、如何控制文章发布时间在一年内？ 3、如何实现分类保存？初步代码如下： import requests from lxml import etree import time import json url='https://gateway.36kr.com/api/mis/nav/ifm/subNav/flow' headers={ 'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl

python3 爬取36氪新闻网页

徐代龙的技术专栏

07-29

2780

一个做了反爬的36氪，返回数据恶心，感觉是一堆垃圾。这里只是记录一下爬取过程。（一）爬取环境 win10 python3 scrapy （二）爬取过程（1）入口：搜索（2）动态js数据加载，查看下一页操作：（3）返回数据：（4）请求链接 http://36kr.com/api//search/entity-search?page=4&...

爬虫-使用xpath拿36KR的数据-xpath的学习与演练

pyhui的技术博客

10-16

373

目标网站首页_36氪 https://36kr.com/ 界面展示练习取title标签，用到/符号 /符号，从根节开始选取 // 从当前节点往下找，可以跳着找 … 返回上一级标签拿属性 @ 拿link里面的herf @ 取标签的属性拿文本 text() 拿所有a标签里包裹的文本内容 <a> xxyy </a> 取xxyy 拿所有a标签的链接地址拿所...