爬取思路
首先csdn的文章列表页都是需要刷新或者点击加载才会显示更多的内容,并且返回的是json数据
这里有两种爬取思路:
1 用构造get请求
2 用selenium 模拟驱动浏览器的js函数通过不断下拉进度条来加载页面(思路简单 但是不推荐)
下面介绍如何通过构造get请求来实现文章
通过chrome的检查
下面是请求的url
https://www.youkuaiyun.com/api/articles?type=more&category=python&shown_offset=1565609637350789
主要看category和shown_offset,前者不必过多解释,是类别,后面的是时间戳
看爬取代码.
这里我截取了核心代码
from fake_useragent import UserAgent
list=['java','python','sql','android','javascript','web','arch','db','game','mobile','ops','sec','cloud','fund']
ua=UserAgent()
header={
'User-Agent':ua.random,
}
class CsdnSpider(scrapy.Spider):
name = 'csdn'
allowed_domains = ['youkuaiyun.com']
def start_requests(self):
for name in list:
url_time=int(time.time()*1000000) #时间戳
url='https://www.youkuaiyun.com/api/articles?type=more&category={0}&shown_offset={1}'.format(name,str(url_time))
yield scrapy.Request(url=url,callback=self.parse,headers=header)
def parse(self, response):
item = csdnitem()
datas=json.loads(response.text)['articles']
for data in datas:
item["link_url"] = data['url']
代码大致解释一下关键的地方
我使用了fake_useragent库伪造请求头,测试过,只用请求头可以请求到数据,如果在加上其他的请求体有时候会出现报错,或者请求失败,具体原因不知,但是在postman中却又可以请求的到json数据,fiddler测试只要头一样可以拿到数据
请求到json数据后使用json.load()方法加载,差不多就大功搞成了
下面是效果图