
文本处理
文章平均质量分 63
静静_jingjing
重庆理工大学在读研究生萌新一枚~~~还需要多多学习~~希望大家多多指教 自己开心顺利地毕业 欧耶~~~~
展开
-
jieba自定义词典进行切分
用jieba进行分词时,人名总是切分不出来,比如‘袁今夏’可能会被分成 袁、今夏 或者是袁今、夏,所以我需要提供一个人名表(roles_name.txt),用jieba依据这个表来分词,这样的话“袁今夏”会当成一个整体被分出来jieba.load_userdict('../roles_name.txt')default_mode = jieba.lcut(file, cut_all=False) # 精确模式roles_name.txt 截取了部分...原创 2021-03-09 19:19:24 · 987 阅读 · 0 评论 -
垃圾邮件分类(trec06c数据集)特征分词、特征向量化、模型训练
目录得到全量数据集得到采样数据集模型训练全部代码:结果已完结原创 2020-12-31 16:30:48 · 9853 阅读 · 11 评论 -
垃圾邮件分类(trec06c数据集)数据处理-特征提取
垃圾邮件分类(trec06c数据集)数据处理-1目标:我要提取 发件人(From)、收件人(To)、邮件主题(Subject)、邮件正文(zhengwen) 作为邮件特征,然后输入到线性分类模型中进行训练首先是这四个特征提取的部分发件人收件人邮件主题邮件正文获取 标签--路径 对照表把这一部分的全部的代码放这儿:~~~~~~~~~~~待更新~~~~~~~~~~~~~~~~~~~~~~~~~~~原创 2020-12-31 11:52:01 · 19143 阅读 · 13 评论