根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页

最新推荐文章于 2021-02-04 16:55:24 发布

罗纳尔光

最新推荐文章于 2021-02-04 16:55:24 发布

阅读量7.8k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬虫今日头条 scrapy Selenium phantomjs 动态网页

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_37913997/article/details/81143665

爬虫专栏收录该内容

5 篇文章

订阅专栏

在今日头条上输入关键词，爬取与关键词相关的新闻各类信息和内容页。

今日头条爬取主要困难如下：

（1）采用下拉翻滚动态加载新的新闻条目，即瀑布流；

（2）内容详情页为动态页面，大部分网页源代码类似字典形式，一部分为带标签的结构化页面。

本文采用两种方式爬取，都将爬取的数据写入到数据库中，主要爬虫代码在JinRiTouTiao.py中，小编在pipelines.py中使用了mysql数据库存储数据，读者可忽略，若使用请配置数据库相关信息。

爬取内容：发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。

github链接：https://github.com/kingdomrushing/SpiderTouTiao-python/tree/master

（一）使用scrapy+Selenium +phantomjs爬取：

爬虫为spiders/JinRiTouTiao.py

使用请运行startFirst.py

因为使用的是Selenium +phantomjs，所以无论是静态页面还是动态页面都可以爬取，抓取十分准确，但是速度非常慢，小编爬时是一分钟两个items，可能与小编的网速和电脑配置不高有关。

使用前需要下载phantomjs，使用方法见https://www.cnblogs.com/zzhzhao/p/5380376.html

(二) 使用scrapy+urllib+lxml爬取：

爬虫为toutiao.py

使用请运行startSecond.py

推荐使用，爬取速度比较快，爬取数据较为准确。

人非圣贤，孰能无过？欢迎大家指正，也欢迎大家有好的想法可以一起交流，小编QQ:2422035338，大家有什么问题或者想法欢迎骚扰。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。