文章目录 1、词向量引入词性 1.1、原理 1.2、预设词性特征 1.3、完整代码示例 1.4、效果比较及改进方向 2、词向量-->单位向量 2.1、原理 2.2、极简代码 3、词向量+TFIDF 3.1、原理 3.2、极简代码 3.3、引入TFIDF前后可视化对比 4、降维 4.1、降到二维并可视化 4.2、降到三维并可视化 1、词向量引入词性 1.1、原理 对训练后的词向量,引入预设词性特征 应用场景:关键词抽取提升、命名实体识别提升… 大家可以根据自身业务场景来选择是否引入词性 1.2、预设词性特征 使用独热码,数值设计上是,希望提升词性相同或相近的词,打个比方: 【果】和【瓜】都是名词,提升相似度; 【吃】和【且】分别是动词和连词,不提升相似度; 【文案】是名词,【策划】是动名词,相似度提升一丢丢。 【唱歌】和【艺术】都是实词,也给予一丢丢丢的相似度提升 补充:这个词性特征是根据语言学预设的,我们也可以尝试用词向量来训练词性特征。 1.3、完整代码示例