一个典型的文本分类的数据挖掘流程如下图,这张图初看有点乱,我这里解释一下,红色的部分是训练时候调用的模块,绿色是测试时候调用的模块,而蓝色的部分是训练的时候生成的中间文件,它们联系着训练、测试两个部分。从左到右看是算法运行的流程,首先用户给出原始的用于训练的中文文本,然后进行分词等操作。 经过了生成矩阵这个步骤,文本就转化成了数学语言了,之后的算法都是运行在这个数学语言之上,之后的算法就不再关心输入的数据是否是文档了,换句话来说,生成矩阵这个模块相当于是一道门,门内是纯数学表示的算法,门外是原始的文本语料。

科普-文本挖掘(文本分类)流程
最新推荐文章于 2023-12-27 17:56:37 发布
本文介绍了一个典型的文本分类数据挖掘流程,包括从原始中文文本到数学表示的转换过程,重点讲解了分词、生成矩阵等关键步骤。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Stable-Diffusion-3.5
图片生成
Stable-Diffusion
Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率
1421

被折叠的 条评论
为什么被折叠?



