【NLP系列1】基于Doc2Vec的文本分类

最新推荐文章于 2024-12-27 21:45:30 发布

南七小僧

最新推荐文章于 2024-12-27 21:45:30 发布

阅读量908

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能与深度学习算法研究机器学习 NLP 自然语言处理 tensorflow 神经网络 keras Python 人工智能

我是南七小僧，邮箱：xkk9866@yeah.net ，C9博士，前百度搜索AI平台产品负责人，欢迎交流思想碰撞。

本文链接：https://blog.youkuaiyun.com/qq_25439417/article/details/82179974

人工智能同时被 3 个专栏收录

242 篇文章 ¥19.90 ¥99.00

订阅专栏

人工智能与深度学习算法研究

91 篇文章 ¥19.90 ¥99.00

订阅专栏

机器学习

43 篇文章 ¥19.90 ¥99.00

订阅专栏

本文探讨了使用Genism库的Doc2Vec进行文本分类的效果，发现对于文档分类存在不准确性，尤其是在区分程序员岗位和销售等职位时。通过引入jieba分词和停用词过滤，分类精度略有提升，但仍有不足。作者指出干扰信息过多可能是主要原因，并计划尝试TFIDF算法，聚焦于文本中的关键信息，以提高分类准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

shixi = pd.read_table('shixi.txt')
print(shixi)
s = '哈哈哈哈大师赛的小康康'
w = jb.cut(s)
jdlist = list()
for i in range(1000):
    w = jb.cut(shixi.content[i])
    jdlist.append(TaggedDocument(' '.join(w).split(' '),[i]))
    
#print(jdlist)
model = Doc2Vec(jdlist,dm=1, dm_concat=1, size=100, window=2, hs=0, min_count=2, workers=8)
print(model.docvecs.most_similar(63)[0][0])

通过genism的库，使用doc2vec看看基于文档的初步分类效果怎么样。

事实证明结果不太行，会把嵌入式的岗位，匹配到销售等。