- 博客(2)
- 收藏
- 关注
原创 11111
elif word_list[i].isdigit():#去数值。#对上一关获得的分词后的训练集trainX_txt和测试集testX_txt,#去掉停用词和数值,同时对每条标题(词列表),变成字符串(词之间用空格分开),#读取停用词文件“stop_words.txt”,该文件为单列无表头的文件。# 最后返回结果,同时也返回上一关的Y值(r[1])trainX_txt=[]#整合后的训练数据。testX_txt=[]#整合后的测试数据。
2024-12-25 16:53:03
315
原创 11111
x_train_counts = count_vect.fit_transform(X) #用来对数据进行处理,表示成n-gram的形式。X, Y, testX_txt = r # 确保 X, Y, testX_txt 被正确赋值。#1.基于上一关的结果trainX_txt,Y,testX_txt,利用机器学习包的内置函数,#2.最后,利用训练好的模型,对testX_txt进行预测,返回测试集的情感分类标签值。# 计算逆向词频,并构造特征集,对训练数据集按80%训练、20%测试随机划分,
2024-12-25 16:50:53
226
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅