基于10个类别假新闻1000篇文章数据训练中文word2vec模型

本文介绍了如何爬取10个类别假新闻的数据,进行数据预处理,包括文件合并和分词去停,然后利用gensim的word2vec工具训练模型,并展示了测试效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取语料库

利用爬虫爬取百度网页每个类别假新闻10页,共1000篇文章。爬取的类别如下:

 

数据预处理

汇总

把爬取到的10个txt文件都放在同一个文件夹下,利用程序将这10个txt文件合并在一起。

把汇总的txt文件命名为result.txt。

程序如下:

 file: FileMerage.py
# os模块中包含很多操作文件和目录的函数
import os
# 获取目标文件夹的路径
meragefiledir = os.getcwd() + '\\MerageFiles'
# 获取当前文件夹中的文件名称列表
filenames = os.listdir(meragefiledir)
# 打开当前目录下的result.txt文件,如果没有则创建
file = open('result.txt', 'w')

# 先遍历文件名
for filename in filenames:
    filepath = meragefiledir + '\\' + filename
 &nb

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值