简易中文分词聚类(Python)

本文介绍了如何使用Python进行中文分词和文本聚类。通过引入jieba库进行分词,然后利用KMeans算法对分词结果进行聚类,实现对大量中文文本的有效组织和分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# -*- coding: utf-8 -*-
__author__ = 'Zhao'

import re
import operator

blank = [chr(183)]
tabs = ['']


def tree(lst):
    l = len(lst)
    if l == 0:
        print('─' * 3)
    else:
        for i, j in enumerate(lst):
            if i != 0: print(tabs[0], end='')
            if l == 1:
                s = '─' * 3
            elif i == 0:
                s = '┬' + '─' * 2
            elif i + 1 == l:
                s = '└' + '─' * 2
            else:
                s = '├' + '─' * 2
            print(s, end='')
            if isinstance(j, list) or isinstance(j, tuple):
                if i + 1 == l:
                    tabs[0] += blank[0] * 3
                else:
                    tabs[0] += '│' + blank[0] * 2
                tree(j)
            else:
                print(" ", j)
    tabs[0] = tabs[0][:-3]


def judge_element_delete(list_input, centroid, group, match_num):
    for list_element in list_input:
        if isinstance(list_element, list):
            for element in list_element:
                if element == match_num:
                    del centroid[list_input.index(list_element)]
                    del group[list_input.index(list_element)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值