Python第三方模块—jieba

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

分词模式

  • 精确模式: 把文本精确且分开,不存在冗余单词,分词结果最准确。
  • 全模式: 把文本中所有可能的词语都扫描出来,有冗余
  • 搜索引擎模式: 在精确模式基础上,对长词再次切分
  • 实际上,精确模式是全模式使用了隐马尔可夫模型后筛选的概率最大的结果。

语法

  • lcut(text[, cut_all=False]):精确模式分词,参数cut_all表示全模式;返回列表类型
  • lcut_for_search(text):搜索引擎模式;返回列表类型
  • add_word(word):向词库增加新词
text = '这里是中国北京市海淀区'
print(jieba.lcut(text))
print(jieba.lcut(text, cut_all=True))
print(jieba.lcut_for_search(text))

在这里插入图片描述

示例

统计词频,并从高到低输出词频字典

import jieba

def statistical(text, topK=10):
    # 分词
    words = jieba.lcut(text)
    # 放在字典中
    my_dict = dict()
    for word in words:
        if len(word) <= 1:  # 只记录词,不记录单个字
            continue
        # 第一次为1; 否则+1
        my_dict[word] = my_dict.get(word, 0) + 1

    # 按词频(字典的v)由高到低排序
    my_dict = list(my_dict.items())
    my_dict.sort(key=lambda x: x[1], reverse=True)
    my_dict = dict(my_dict)

    # 输出前10个元组
    for i, (k, v) in enumerate(my_dict.items()):
        if i + 1 > topK:
            break
        print('{:<3} {:<4} {:>2}'.format(i, k, v))


if __name__ == '__main__':
    text = '''现在很多网站在数据库存储用户的密码的时候都是存储用户密码的MD5值。
    这样就算不法分	子得到数据库的用户密码的MD5值,也无法知道用户的密码。
    比如在Unix系统中用户的密码就是MD5值(获取他类似的算法)经加密后存储在文件系统中。
    当用户登陆的时候,系统把用户输入的密码计算成MD5值,然后再去和保存在文件系统中
    的MD5值进行比较,进而确定输入的密码是否正确。通过这样的步骤,系统在不知道用户
    密码的明码的情况下就可以确定用户登陆系统的合法性。这不但可以避免用户的密码
    被具有系统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的难度。'''
    statistical(text)

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值