小说情感分析器(基于词典)
作为自然语言处理学习的第一站,我选择情感分析作为起步,这里用python编写了一个简单的基于知网词典的情感分析器,并用R语言的ggplot2进行作图(ps:好看)
python代码块
导入:词典和需要分析的txt文件
pathMainText:待分析文件的路径
pathLevelList:情感程度词典路径
pathGood:正面情感词典路径
pathBad:负面情感词典路径
pathSave:csv文件的存储路径
产出:以句为单位的情感系数csv文件
def novelSentimentCsv(pathMainText,pathLevelList,pathGood,pathBad,pathSave):
#数据获取与清洗
import re
#读取小说TXT
filehqg = open(pathMainText,'r')
lineshqg = filehqg.readlines()
#连续字符串sumStr
sumStr = ''
for line in lineshqg:
sumStr = sumStr + line
filehqg.close()
#中文分句方法
# coding: utf-8
#设置分句的标志符号;可以根据实际需要进行修改
cutlist ="。!?"
#检查某字符是否分句标志符号的函数;如果是,返回True,否则返回False
def FindToken(cutlist, char):
if char