1.数据包含2个csv文件:
train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。 注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。 注:test_set与train_test中文章id的编号是独立的。
2.
代码预处理:
import pandas as pd
dataPath = 'H:/nlp/new_data/train_set_0.csv'
df_train = pd.read_csv(dataPath)
#print(df_train.head())
print("values=",df_train[:3].values)
print("isnull=",df_train.isnull().sum()) #缺失值
print("notnull=",df_train.notnull().sum()) #非缺失值
print("info=",df_train.info())
print(df_train['class'].describe())
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = \
train_test_split(df_train[['word_seg']].values,df_train[['class']].values,test_size=0.3,random_state=2019)
print("X_train.shape=",X_train.shape)
print("X_train_type=",type(X_train))