【NLP系列1】基于Doc2Vec的文本分类

43 篇文章 ¥19.90 ¥99.00
本文探讨了使用Genism库的Doc2Vec进行文本分类的效果,发现对于文档分类存在不准确性,尤其是在区分程序员岗位和销售等职位时。通过引入jieba分词和停用词过滤,分类精度略有提升,但仍有不足。作者指出干扰信息过多可能是主要原因,并计划尝试TFIDF算法,聚焦于文本中的关键信息,以提高分类准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

shixi = pd.read_table('shixi.txt')
print(shixi)
s = '哈哈哈哈大师赛的小康康'
w = jb.cut(s)
jdlist = list()
for i in range(1000):
    w = jb.cut(shixi.content[i])
    jdlist.append(TaggedDocument(' '.join(w).split(' '),[i]))
    
#print(jdlist)
model = Doc2Vec(jdlist,dm=1, dm_concat=1, size=100, window=2, hs=0, min_count=2, workers=8)
print(model.docvecs.most_similar(63)[0][0])

通过genism的库,使用doc2vec看看基于文档的初步分类效果怎么样。

事实证明结果不太行,会把 嵌入式的岗位,匹配到 销售等。

需要进一步对文档分词进行过滤和处理。

先看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南七小僧

打赏后,可以添加微信一对一咨询

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值