讯飞语义相似度baseline
使用Bert进行文本分类1 数据的读入1.1 本地文件2 数据预处理2.1 定义一个tokenizer2.2 pandas读入3 输出3.1 直接输出3.2 常规训练1 数据的读入1.1 本地文件使用pandas进行读取,以讯飞比赛中中文语义相似度的数据csv文件为例import pandas as pd# 文件读取import codecstrain_df = pd.read_csv('./data/train.csv', sep='\t', names=['question1', 'que
原创
2021-08-26 11:20:59 ·
329 阅读 ·
0 评论