【自然语言处理】文本情感分析-不分词实验LSTM ONEHOT

本文探讨了在中文自然语言处理中,不进行分词直接使用one-hot编码进行情感分析的实验。通过以字为单位构建句子输入到LSTM模型,展示了不分词方法在处理文本情感分析时的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常常做中文自然语言处理的第一步就是将句子级文章级文本进行分词。
但中文分词常常让我们哭笑不得
乒乓球/拍/卖了
乒乓/球拍/卖了
这样的分词常常让我损失句子的一些特征

还有刘群老师的自然语言理解太难了系列话题
给大家展示一下有意思的地方
难度:※※ 两颗星
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”
赵敏说:我也想控忌忌己不想无忌。
你也想犯范范范玮琪犯过的错吗
对叙打击是一次性行为?

自然语言理解太难了

那如果我们不分词结果如何呢

one hot

以字为单位,不分词,将每个句子截断为200字(不够则补空字符串),然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类;

# -*- coding:utf-8 -*-

'''
python 3.6
one hot测试
'''

import numpy as np
import pandas as pd
from tqdm import tqdm

maxlen = 200  # 截断字数
min_count = 20  # 出现次数少于该值的字扔掉。这是最简单的降维方法

tqdm.pandas(desc='onehot')


def init():
    pos = pd.read_excel('./data/pos.xls', 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值