# -- coding: utf-8 --**
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd
import os
# 获取当前目录
current_dir = os.getcwd()
# 获取当前目录下所有xlsx文件名
xlsx_files = [file for file in os.listdir(current_dir) if file.endswith(".xlsx")]
# 打印xlsx文件名
for file in xlsx_files:
print(file)
# 读取Excel文件
excel_file = file
data = pd.read_excel(excel_file)
# 提取第3列和第5列的值
column3_values = data.iloc[:, 1] # 第3列的值
column5_values = data.iloc[:, 3] # 第5列的值
# 打印提取的值
print("第3列的值:")
print(column3_values)
print("\n第5列的值:")
print(column5_values)
print(len(column3_values))
print(len(column5_values))
#
res=[]
# # 两段话
for i in range(len(column3_values)):
# 创建计数向量器
vectorizer = CountVectorizer().fit_transform([column3_values[i], column5_values[i]])
# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer)
# 提取余弦相似度值
similarity_value = cosine_sim[0][1]
if similarity_value>0.3:
res.append("正确")
elif similarity_value>0.05 and similarity_value<0.3:
res.append("部分正确")
else:
res.append("错误")
# res.append(similarity_value)
print("两段话的余弦相似度:", similarity_value)
# 指定txt文件名
txt_file =excel_file.replace(".xlsx","")+".txt"
# 将列表逐行写入txt文件
with open(txt_file, 'w') as f:
for item in res:
f.write("%s\n" % item)
print("内容已写入到", txt_file)
当前目录下的excel文件的两列内容的相似度比较
于 2023-08-23 17:01:46 首次发布
本文介绍了如何使用Python的sklearn库对Excel文件中的文本数据进行特征提取,计算两段话之间的余弦相似度,并根据相似度判断其正确性,最终将结果保存为txt文件。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Python3.10
Conda
Python
Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本
579

被折叠的 条评论
为什么被折叠?



