需求
使用监督学习对历史数据训练生成模型,用于预测文本的类别。
样本清洗
主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。
def writeFile(text):
file_object = open('result.txt','w')
file_object.write(text)
file_object.close()
def clear():
text = ""
file_obj = open("deal.txt")
list_of_lines = file_