赛题:问题相似度计算
网址:金融大脑-金融智能NLP服务
目录
1.数据格式:
行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1
行号指当前问题对在训练集中的第几行;
句1和句2分别表示问题句对的两个句子;
标注指当前问题对的同义或不同义标注,同义为1,不同义为0。

2.读取文件:
import pandas as pd
data=pd.read_csv('./atec_nlp_sim_train.csv',sef='None',encoding='utf-8')
#sep : 指定分隔符。如果不指定参数,则会尝试使用逗号分隔。
data.head

该博客介绍了处理CSV文件的几个步骤,包括理解数据格式,读取文件,更改列名,获取特定列信息以及如何对文件进行分割。在NLP任务中,作者展示了如何处理含有问题对和标注的CSV数据,用于问题相似度计算。
最低0.47元/天 解锁文章
458

被折叠的 条评论
为什么被折叠?



