【python实现基于深度学习的文本情感分类(2)】——数据准备和Jieba分词

用到的库:xlrd, jieba

要做什么

这一步是为了分词,利用jieba分词实现。不过先要把包含原始数据的xlsx文件中包含文本的部分提取到txt文件中方便处理。
下面上代码。

xlsx转txt

#encoding=utf-8

#############################################
###      对word2vec进行训练需要语料库       ###
###  将excel单元格中数据转成txt文件便于读入  ###
#############################################

#转换完成,之后不再执行这段代码

import xlrd

fname = "classfied_data.xlsx"
excelbook = xlrd.open_workbook(r'E:\python\Deep_Text_Classfication\data\classfied_data.xlsx')

def getSheet(sh_index):
    try:
        sh = excelbook.sheet_by_index(sh_index)
    except:
        print('no sheet'+sh_index+' in %s',format(fname))
    return sh

#导入excel数据sheet1
sh1 = getSheet(0)

#获取单元格(5,1)的内容
cell_value = sh1.cell_value(5,1
### 中文文本情感分析模型概述 中文文本情感分析旨在识别提取文本中的主观信息,判断其情感倾向。对于这一任务,不同的编程环境提供了多种库支持工具。 #### 使用 cnSentimentR 进行中文文本情感分析 cnSentimentR 是一个专门为中文设计的情感分析 R 语言包[^1]。此包允许用户通过简单直观的 API 接口来训练自己的情感分类器,并能方便快捷地对新输入的数据做出预测。除了提供基本的功能外,还特别强调了易用性高效性,在学术界以及工业界的多个场景下都有广泛应用案例。 ```r library(cnSentimentR) # 加载并准备数据集 data <- read.csv("path/to/your/dataset.csv") # 训练模型 model <- train_model(data$text, data$label) # 预测新样本的情绪类别 predictions <- predict(model, new_texts) ``` #### Python中文文本情感分析解决方案 Python 社区同样拥有丰富的资源支持中文文本情感分析工作。一篇详细的指南介绍了利用 Python 完成此类任务的方法论技术细节[^2]。文中不仅涵盖了理论基础知识介绍,还包括具体操作流程说明——从原始语料预处理到最终建立有效的机器学习或深度学习架构来进行情绪判别。 ```python import jieba from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 文本分词 def segment(text): return " ".join(jieba.cut(text)) texts = ["我喜欢这个产品", "服务态度很差"] vectorizer = CountVectorizer(tokenizer=segment) X = vectorizer.fit_transform(texts) y = ['positive', 'negative'] clf = MultinomialNB() clf.fit(X, y) new_text = ["这家餐厅的食物非常美味"] print(clf.predict(vectorizer.transform(new_text))) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值