豆瓣评分预测（如何用自己的数据集进行文本分类）——基于pytorch的 BERT中文文本分类，超详细教程必会

本文链接：https://blog.youkuaiyun.com/2401_84254057/article/details/138900107

写在最后

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的一份珍贵投资。让我们不断磨砺自己，与时代共同进步，书写属于我们的辉煌篇章。

需要完整版PDF学习资源私我

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

二、文本处理

1.加载数据

由于豆瓣数据为DMSC.csv格式，所以我们通过pd.read_csv函数读取数据，该函数是用来读取csv格式的文件，将表格数据转化成dataframe格式。

#读取数据
data = pd.read_csv('DMSC.csv')
#观察数据格式
data.head()
#输出数据的一些相关信息
data.info()
#只保留数据中我们需要的两列：Comment列和Star列
data = data[['Comment','Star']]
#观察新的数据的格式
data.head()

输出结果：

	Comment	Star
0	连奥创都知道整容要去韩国。	3
1	“一个没有黑暗面的人不值得信任。” 第二部剥去冗长的铺垫，开场即高潮、一直到结束，会有人觉…	4
2	奥创弱爆了弱爆了弱爆了啊！！！！！！	2
3	与第一集不同，承上启下，阴郁严肃，但也不会不好看啊，除非本来就不喜欢漫威电影。场面更加宏大…	4
4	看毕，我激动地对友人说，等等奥创要来毁灭台北怎么办厚，她拍了拍我肩膀，没事，反正你买了两份…	5

2. 文本预处理

由于一开始送训练数据进入BERT时，提示出现空白字符无法转换以及label标签范围不符合的问题，所以再一次将数据进行预处理，将空白去除以及标签为评分减一。

def clear_character(sentence):
    new_sentence=''.join(sentence.split()) #去除空白
    return new_sentence
data["comment_processed"]=data['Comment'].apply(clear_character)
data['label']=data['Star']-1
data.head()

输出结果：

	Comment	Star	comment_processed	label
0