本文介绍如何利用requests+正则表达式爬取TIOBE编程语言热度数据,并使用openpyxl写入数据与pyecharts时间轮播图进行可视化。

一、数据获取
我们需要爬取的目标url为https://www.tiobe.com/tiobe-index/打开之后如下

分析网页源代码可以找到想要的数据,利用正则表达式提取出想要的数据,并保存到Excel中,便于后续数据处理和可视化。

完整爬虫代码如下,其中大多数语句都给出了详细注释,感兴趣的读者可以进一步研究。
# -*- coding: UTF-8 -*-
"""
@File :spider.py
@Author :叶庭云
@优快云 :https://yetingyun.blog.youkuaiyun.com/
"""
import requests
import re
import openpyxl
import logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"
}
wb = openpyxl.Workbook() # 创建工作簿对象
sheet = wb.active # 获取活动的工作表
# 编程语言 时间 热度
sheet.append(['Programing', 'Date', 'data_per'])
url = 'https://www.tiobe.com/tiobe-index/'
rep = requests.get(url, headers=headers).text
# 正则匹配提取数据
data = re.findall('{name : (.*?),data : (.*?)}', rep)
program

本文展示了如何使用Python通过requests和正则表达式爬取TIOBE编程语言热度数据,并利用openpyxl存储数据,通过pyecharts进行时间轮播图的数据可视化。文中详细解释了爬虫实现过程,以及pyecharts在数据展示时可能出现的资源加载问题及其解决方案。
最低0.47元/天 解锁文章
8727

被折叠的 条评论
为什么被折叠?



