常常做中文自然语言处理的第一步就是将句子级文章级文本进行分词。
但中文分词常常让我们哭笑不得
乒乓球/拍/卖了
乒乓/球拍/卖了
这样的分词常常让我损失句子的一些特征
还有刘群老师的自然语言理解太难了系列话题
给大家展示一下有意思的地方
难度:※※ 两颗星
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”
赵敏说:我也想控忌忌己不想无忌。
你也想犯范范范玮琪犯过的错吗
对叙打击是一次性行为?
那如果我们不分词结果如何呢
one hot
以字为单位,不分词,将每个句子截断为200字(不够则补空字符串),然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类;
# -*- coding:utf-8 -*-
'''
python 3.6
one hot测试
'''
import numpy as np
import pandas as pd
from tqdm import tqdm
maxlen = 200 # 截断字数
min_count = 20 # 出现次数少于该值的字扔掉。这是最简单的降维方法
tqdm.pandas(desc='onehot')
def init():
pos = pd.read_excel('./data/pos.xls',