数据挖掘实战-前沿分析-Task01_数据挖掘前沿技术attention-优快云博客

本文链接：https://blog.youkuaiyun.com/hahameier/article/details/112562760

本篇博客介绍了数据挖掘的任务，涉及爬取arxiv网站上的论文数据，进行分类统计，重点关注计算机领域论文的分布。文章讨论了列表推导式嵌套循环的使用，正则表达式的理解，并提供了正则表达式在线解析工具链接。同时，博主分享了在数据整合过程中遇到的错误，即在进行表连接时因正则表达式问题导致的空表，最终找到了错误的原因——正则表达式缺少一个空格。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容介绍：

本次任务主要是一个数据准备的工作，通过爬虫获取arxiv上面的数据，然后对论文进行一个分类，查看一下所有类别论文的数量，以及计算机领域里面论文的分布情况。

问题整理：

1、列表推导式嵌套循环理解。

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])

等价于以下的代码：

list1 = []
for l in [x.split(' ') for x in data['categories']]:
    for i in l:
       list1.append(i) 
list1

2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)：

.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句，(.)为括号前所有的str，((.))为后面括号的str

例如：
原始的str为：Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics

正则表达式图解析：https://regexper.com/ 或者这个：https://regexr.com/

错误解答：

在表1左连接表2的时候，发现结果是空表。分步骤看，连接后的表中显示原表2的列都是空值，排查问题可能出在了哪里呢。首先应该思考键的问题，排查后发现两个表的键不一致（虽然输出的DataFrame看着是一致的）。进一步排查可以发现，是在正则表达式那块有些小问题。

错误写法：

raw = t.text
level_3_code = re.sub(r"(.*)\((.*)\)",r"\1",raw)
level_3_name = re.sub(r"(.*)\((.*)\)",r"\2",raw)

正确写法：

raw = t.text
level_3_code = re.sub(r"(.*) \((.*)\)",r"\1",raw)
level_3_name = re.sub(r"(.*) \((.*)\)",r"\2",raw)

就是差了一个空格～

完整代码：

import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt

data = []
with open("arxiv-metadata-oai-snapshot.json",'r') as f:
    for line in f:
        data.append(json.loads(line))
data = pd.DataFrame(data)
data.shape  # 1796911是数据总量，14表示特征数

data['categories'].describe()  # top 一列数据中出现频率最高的元素

## 由于一些论文的类别不止一种，先判断下在本数据集中共出现了多少种独立的数据集。
unique_categories = set([i for l in [x.split(' ') for x in data['categories']] for i in l])
len(unique_categories)

## 处理时间
data['year'] = pd.to_datetime(data['update_date']).dt.year
del data['update_date']

data = data[data['year'] >= 2019]  # 找出2019年以后的数据，并将其他数据删除
data

data.reset_index(drop=True, inplace=True)  # 重新编号
data

## 爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text   # 获取网页的文本数据
soup = BeautifulSoup(website_url, 'lxml')  # 爬取数据，这里使用lxml的解析器
root = soup.find('div',{'id':'category_taxonomy_list'})  # 找出 BeautifulSoup 对应的标签入口
tags = root.find_all(['h2','h3','h4','p'], recursive = True)  # 读取tags

## 初始化str 和list 变量
level_1_name = ''
level_2_name = ''
level_2_code = ''
level_1_names = []
level_2_codes = []
level_2_names = []
level_3_codes = []
level_3_names = []
level_3_notes = []

for t in tags:
    if t.name == 'h2':
        level_1_name = t.text  # 选出计算机科学的文章
        level_2_code = t.text
        level_2_name = t.text
        # print(level_1_name,level_2_code,level_2_name)
    elif t.name == 'h3':
        raw = t.text   # 取的是h3的文本内容，包含176种论文种类。例如：Astrophysics(astro-ph),Condensed Matter(cond-mat)等这种格式
        # print('**',raw)
        ## 以下的正则表达式代表，匹配括号前的内容和括号内的内容
        level_2_code = re.sub(r'(.*)\((.*)\)', r'\2',raw) # 被替换字符串'\2'，被处理字符串：raw  #结果为：astro-ph，cond-mat
        # print('###',level_2_code)
        level_2_name = re.sub(r'(.*)\((.*)\)', r'\1',raw)  # re.sub 用于替换字符串中的匹配项
    elif t.name == 'h4':
        raw = t.text
        # print('**',raw)  # cs.AI (Artificial Intelligence), cs.AR (Hardware Architecture)
        level_3_code = re.sub(r'(.*)\((.*)\)', r'\1',raw)
        level_3_name = re.sub(r'(.*)\((.*)\)', r'\2',raw)
    elif t.name == 'p':
        notes = t.text
        # print('@@',notes)  # Covers systems organization and hardware architecture. Roughly includes material in ACM Subject Classes C.0, C.1, and C.5.
        # Roughly includes material in ACM Subject Classes I.3.5 and F.2.2.
        level_1_names.append(level_1_name)  # 学科名称  Computer Science
        level_2_codes.append(level_2_code) # Computer Science, astro-ph
        level_2_names.append(level_2_name)  # Computer Science
        level_3_codes.append(level_3_code)  # cs.AI, cs.AR 
        level_3_names.append(level_3_name)  # Artificial Intelligence
        level_3_notes.append(notes)  # p里面的文字描述
# print(level_3_notes)
df_taxonomy = pd.DataFrame({
    'group_name': level_1_names,
    'archive_name': level_2_names,
    'archive_id': level_2_codes,
    'category_name': level_3_names,
    'categories': level_3_codes,
    'category_description': level_3_notes
})
        
## 按照'group_name'进行分组，在组内使用'archive_name进行排序 
df_taxonomy.groupby(['group_name', 'archive_name'])
df_taxonomy