词语相似度计算：4、提取文本tf、tfidf特征

最新推荐文章于 2025-10-23 17:44:02 发布

原创

最新推荐文章于 2025-10-23 17:44:02 发布 · 3.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#词语相似度计算 #提取文本tf特征 #提取文本tfidf特征

本文介绍如何利用sklearn库进行文本处理，详细阐述了如何提取文本的TF和TF-IDF特征，以用于词语相似度计算。

还是sklearn，不多做解释：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

#!usr/bin/env python
# -*- coding:utf-8 -*-



import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

import sys
reload(sys)
sys.setdefaultencoding("utf8")
#for UnicodeEncodeError


#get all file names in the "ParentFolder"
def GetFilesInFolder(ParentFolder):
    import os
    filenameList = []
    for filename in os.listdir(ParentFolder):
        print filename
        filenameList.append(filename)
    return filenameList

ParentFolder="wikiData"
filenameList=GetFilesInFolder(ParentFolder)
dataList=[]
for fileName in filenameList:
    f=open(ParentFolder+"/"+fileName,"r")
    fileDatas=f.readlines()
    f.close()
    fileStr=""
    for lineDatas in fileDatas:
        fileStr+=l