简介
基于python语言开发、scrapy框架实现的博客园首页博客爬取项目。项目中使用最基本的python爬虫知识,适合零基础入门学习。
概括
1、使用命令行创建项目
2、定义爬取的内容、标题
import scrapy
class CnblogItem(scrapy.Item):
title = scrapy.Field() #定义爬取的标题
link = scrapy.Field() #定义爬取的连接
3、爬取内容的核心代码
allowed_domains = ["cnblogs.com"]
item = CnblogItem()
item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract() #使用xpath搜索
item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract()
4、将爬取内容遍历写入文件
for i, j in zip(titles, links):
data += i+' '+j+'\n'
f.write(data)
f.close()
5、配置文件setting
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
6、编写主文件main.py
运行main.py,程序会自动生成一个cnblog.txt的文件,里面就是我们爬取下来的内容了。
以上就是这个爬取博客园博客信息项目的基本描述,详细源码可以在以下链接直接下载
https://download.youkuaiyun.com/download/weixin_38807663/87376983