数据挖掘实战-前沿分析-Task01

本篇博客介绍了数据挖掘的任务,涉及爬取arxiv网站上的论文数据,进行分类统计,重点关注计算机领域论文的分布。文章讨论了列表推导式嵌套循环的使用,正则表达式的理解,并提供了正则表达式在线解析工具链接。同时,博主分享了在数据整合过程中遇到的错误,即在进行表连接时因正则表达式问题导致的空表,最终找到了错误的原因——正则表达式缺少一个空格。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

内容介绍:

本次任务主要是一个数据准备的工作,通过爬虫获取arxiv上面的数据,然后对论文进行一个分类,查看一下所有类别论文的数量,以及计算机领域里面论文的分布情况。

问题整理:

1、列表推导式嵌套循环理解。

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])

等价于以下的代码:

list1 = []
for l in [x.split(' ') for x in data['categories']]:
    for i in l:
       list1.append(i) 
list1

2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)

.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句,(.)为括号前所有的str,((.))为后面括号的str

例如:
原始的str为:Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics

正则表达式图解析:https://regexper.com/ 或者这个:https://regexr.com/

错误解答:

在表1左连接表2的时候,发现结果是空表。分步骤看,连接后的表中显示原表2的列都是空值,排查问题可能出在了哪里呢。首先应该思考键的问题,排查后发现两个表的键不一致(虽然输出的DataFrame看着是一致的)。进一步排查可以发现,是在正则表达式那块有些小问题。

错误写法:
raw = t.text
level_3_code = re.sub(r"(.*)\((.*)\)",r"\1",raw)
level_3_name = re.sub(r"(.*)\((.*)\)",r"\2",raw)
正确写法:
raw = t.text
level_3_code = re.sub(r"(.*) \((.*)\)",r"\1",raw)
level_3_name = re.sub(r"(.*) \((.*)\)",r"\2",raw)

就是差了一个空格~

完整代码:

import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt

data = []
with open("arxiv-metadata-oai-snapshot.json",'r') as f:
    for line in f:
        data.append(json.loads(line))
data = pd.DataFrame(data)
data.shape  # 1796911是数据总量,14表示特征数

data['categories'].describe()  # top 一列数据中出现频率最高的元素

## 由于一些论文的类别不止一种,先判断下在本数据集中共出现了多少种独立的数据集。
unique_categories = set([i for l in [x.split(' ') for x in data['categories']] for i in l])
len(unique_categories)

## 处理时间
data['year'] = pd.to_datetime(data['update_date']).dt.year
del data['update_date']

data = data[data['year'] >= 2019]  # 找出2019年以后的数据,并将其他数据删除
data

data.reset_index(drop=True, inplace=True)  # 重新编号
data
## 爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text   # 获取网页的文本数据
soup = BeautifulSoup(website_url, 'lxml')  # 爬取数据,这里使用lxml的解析器
root = soup.find('div',{'id':'category_taxonomy_list'})  # 找出 BeautifulSoup 对应的标签入口
tags = root.find_all(['h2','h3','h4','p'], recursive = True)  # 读取tags

## 初始化str 和list 变量
level_1_name = ''
level_2_name = ''
level_2_code = ''
level_1_names = []
level_2_codes = []
level_2_names = []
level_3_codes = []
level_3_names = []
level_3_notes = []

for t in tags:
    if t.name == 'h2':
        level_1_name = t.text  # 选出计算机科学的文章
        level_2_code = t.text
        level_2_name = t.text
        # print(level_1_name,level_2_code,level_2_name)
    elif t.name == 'h3':
        raw = t.text   # 取的是h3的文本内容,包含176种论文种类。例如:Astrophysics(astro-ph),Condensed Matter(cond-mat)等这种格式
        # print('**',raw)
        ## 以下的正则表达式代表,匹配括号前的内容和括号内的内容
        level_2_code = re.sub(r'(.*)\((.*)\)', r'\2',raw) # 被替换字符串'\2',被处理字符串:raw  #结果为:astro-ph,cond-mat
        # print('###',level_2_code)
        level_2_name = re.sub(r'(.*)\((.*)\)', r'\1',raw)  # re.sub 用于替换字符串中的匹配项
    elif t.name == 'h4':
        raw = t.text
        # print('**',raw)  # cs.AI (Artificial Intelligence), cs.AR (Hardware Architecture)
        level_3_code = re.sub(r'(.*)\((.*)\)', r'\1',raw)
        level_3_name = re.sub(r'(.*)\((.*)\)', r'\2',raw)
    elif t.name == 'p':
        notes = t.text
        # print('@@',notes)  # Covers systems organization and hardware architecture. Roughly includes material in ACM Subject Classes C.0, C.1, and C.5.
        # Roughly includes material in ACM Subject Classes I.3.5 and F.2.2.
        level_1_names.append(level_1_name)  # 学科名称  Computer Science
        level_2_codes.append(level_2_code) # Computer Science, astro-ph
        level_2_names.append(level_2_name)  # Computer Science
        level_3_codes.append(level_3_code)  # cs.AI, cs.AR 
        level_3_names.append(level_3_name)  # Artificial Intelligence
        level_3_notes.append(notes)  # p里面的文字描述
# print(level_3_notes)
df_taxonomy = pd.DataFrame({
    'group_name': level_1_names,
    'archive_name': level_2_names,
    'archive_id': level_2_codes,
    'category_name': level_3_names,
    'categories': level_3_codes,
    'category_description': level_3_notes
})
        
## 按照'group_name'进行分组,在组内使用'archive_name进行排序 
df_taxonomy.groupby(['group_name', 'archive_name'])
df_taxonomy
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值