python爬虫—dota2上分ing...

最新推荐文章于 2021-12-19 22:02:33 发布

原创

最新推荐文章于 2021-12-19 22:02:33 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Python爬虫获取Dota2英雄的胜率和出场次数信息，并进行初步的数据存储和分析。通过Scrapy框架创建项目，利用正则表达式提取网页数据，然后在pipelines中处理并存储到dotaitems.json文件。尽管发现胜率和出场次数之间似乎没有直接关系，但高胜率英雄通常更受欢迎，而某些英雄如TF因其独特性受到玩家喜爱。

这是max+上一张英雄胜率图
如图是在max+dota2中截取的一种图片
那么我们怎么获取图片中的信息并加以利用呢？
1.编辑定向获取该网页的爬虫，获得上面的“姓名”“胜率”“使用次数”的信息
新建爬虫项目dotaitems:
新建后的scrapy基本框架就是这样子

分别说一下几个部分：
item.py相当于爬取到数据的容器；
name=scrapy.Field()
frequency=scrapy.Field()
wr=scrapy.Field()#win rate
settings是配置文件，需要修改的地方不多；（pipelines默认是关闭的，要打开）
ITEM_PIPELINES = {
‘dotaitems.pipelines.DotaitemsPipeline’: 300,
}

#

maxsearch是爬虫的核心部分，因为只对单个网页操作，所以主要是正则表达式的书写；
item[“name”]=response.xpath(“//span[@class=’hero-name-list’]/text()”).extract()
item[“frequency”]=response.xpath(“//td[@style=’width: 40%’]/div[@style=’height: 10px’]/text()”).extract()
item[“wr”]=respons