达观杯智能文本挑战赛

本次挑战赛聚焦于利用长文本数据进行文本分类任务。参赛者需要使用提供的训练集,其中包括文章索引、字符级和词汇级的文本表示以及对应的分类标签,来构建模型并预测测试集中的文本类别。

达观杯智能文本挑战赛

  1. 任务 用长文本数据正文(article)来预测文本对应的类别(class)

  2. 数据

下载地址: 可以直接在官网比赛主页数据下载中下载,也可通过以下传送门下载: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码58r9

下载后解压,其中train_set.csv为训练集:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:

  • 第一列是文章的索引(id),
  • 第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);
  • 第三列是在“词”级别上的表示,即词语相隔正文(word_seg);
  • 第四列是这篇文章的标注(class)。 注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!

其中test_set.csv为测试集:此数据用于测试。数据格式同train_set.csv,但不包含class。

3.数据的读取

代码如下:

import numpy as np

import pandas as pd

df_train = pd.read_csv(‘train_set.csv’)

#括号内这里是训练集的地址,下测试集同

#注:若内存不足可添加参数:nrows=1000

df_test=pd.read_csv('test_set.csv')

df_train.shape df_train.columns

#查看训练集维度

可以用以下代码看一下训练集是否有缺失值:

train_data.isnull().any()

读取数据后可知的columns分别为:id,article,word_seg,class,其中class即为label属性,需要正确分类的属性

4.数据拆分

直接

columns=['article','word_seg']

X_train,X_test,y_train,y_test=train_test_split(train_data[columns],train_data['class'],test_size=0.3, random_state=2019)

print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

03-08
### MathPix工具介绍 Mathpix Snipping Tool 是一款强大的数学公式识别工具,从最初的原型发展至今已经历了多次迭代和功能增强[^1]。该工具不仅能处理简单的数学表达式,还可以应对复杂的数学模型以及多行公式,并且支持手写公式的识别。 这款应用程序通过不断的科技创新与用户反馈改进,在学术研究和技术领域赢得了良好声誉,成为许多科研人员不可或缺的工作伙伴之一。除了基本的功能外,Mathpix 还提供了多种高级特性来满足不同用户的特定需求。 ### 使用方法 #### 安装与启动 为了使用 Mathpix Snipping Tool ,首先需要下载安装程序并按照提示完成设置过程。一旦成功安装后即可随时调用此应用来进行截图操作。 #### 截取屏幕上的公式图像 当遇到想要转换成 LaTeX 或 AsciiMath 的图片时,只需打开软件界面按下快捷键(默认为 `Ctrl+Alt+M`),此时鼠标指针会变为十字形状以便于选取目标区域;框选所需部分之后松开按键即刻上传至云端服务器等待进一步分析处理。 #### 获取LaTeX代码片段 经过短暂几秒钟的时间延迟过后,所截获的内容将以纯文本形式显示出来供复制粘贴到其他编辑器当中继续编写文档或是分享给他人查看交流之用。 ```python import pyperclip # 假设已获取到LaTeX字符串 stored_in_variable named latex_code pyperclip.copy(latex_code) print("LaTeX code has been copied to clipboard.") ``` 对于希望深入探索更多可能性的用户来说,可以考虑查阅官方提供的扩展插件——如用于解析Markdown文件内的公式标记语法的库 **mathpix-markdown-it** [^2] ——这将进一步提升工作效率和个人体验感。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值