问题1:
天池赛官网下载到的5个数据文件,其中了解到有一份是训练数据集,但其他4份就不是很清楚,第一次接触这种类型的还是有点懵的。拿到数据,几份数据之间都有什么关系?具体我该怎么使用每一份文件?如何处理数据?然后弄成什么样的数据形式喂入模型?
问题2:
这种比赛属于什么NLP问题?具体是哪个方向?我是不是该读读相关的综述论文?了解发展现状和研究趋势?最新的动态是怎样的?
问题3:
这类方向的问题,一般步骤是?还有哪些类似的比赛?
搭建环境
暂时安装了jieba,TFIDF(这个不知道怎么使用)
分词
