当前目录下的excel文件的两列内容的相似度比较

原创已于 2023-08-23 17:02:44 修改 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python3.11 #excel

于 2023-08-23 17:01:46 首次发布

本文介绍了如何使用Python的sklearn库对Excel文件中的文本数据进行特征提取，计算两段话之间的余弦相似度，并根据相似度判断其正确性，最终将结果保存为txt文件。

部署运行你感兴趣的模型镜像

# -- coding: utf-8 --**
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd
import os

# 获取当前目录
current_dir = os.getcwd()

# 获取当前目录下所有xlsx文件名
xlsx_files = [file for file in os.listdir(current_dir) if file.endswith(".xlsx")]
# 打印xlsx文件名
for file in xlsx_files:
print(file)
# 读取Excel文件
excel_file = file
data = pd.read_excel(excel_file)
# 提取第3列和第5列的值
column3_values = data.iloc[:, 1] # 第3列的值
column5_values = data.iloc[:, 3] # 第5列的值

# 打印提取的值
print("第3列的值：")
print(column3_values)

print("\n第5列的值：")
print(column5_values)

print(len(column3_values))
print(len(column5_values))
#
res=[]
# # 两段话
for i in range(len(column3_values)):
# 创建计数向量器
vectorizer = CountVectorizer().fit_transform([column3_values[i], column5_values[i]])
# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer)

# 提取余弦相似度值
similarity_value = cosine_sim[0][1]
if similarity_value>0.3:
res.append("正确")
elif similarity_value>0.05 and similarity_value<0.3:
res.append("部分正确")
else:
res.append("错误")
# res.append(similarity_value)

print("两段话的余弦相似度：", similarity_value)

# 指定txt文件名
txt_file =excel_file.replace(".xlsx","")+".txt"

# 将列表逐行写入txt文件
with open(txt_file, 'w') as f:
for item in res:
f.write("%s\n" % item)

print("内容已写入到", txt_file)

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本