
文本分析与挖掘
文章平均质量分 73
漠河105
这个作者很懒,什么都没留下…
展开
-
003_文本分析与挖掘(Kmeans算法对指定中文数据集聚类)
用Kmeans算法对指定中文数据集聚类:(1)使用jieba进行分词(2)去除停用词(3)构建特征向量(4)使用Kmeans算法进行聚类。原创 2024-04-13 16:34:41 · 579 阅读 · 0 评论 -
002_文本分析与挖掘(jieba库三种分词模式,SnowNLP的简答演示,去除停用词,提取关键词,构建特征向量)
jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。支持三种分词模式1、精确模式,试图将句子最精确地切开,适合文本分析;2、全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;3、搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。原创 2024-04-09 16:05:04 · 1641 阅读 · 0 评论