Python利用结巴模块统计《水浒传》词频

最新推荐文章于 2025-01-13 21:52:36 发布

转载最新推荐文章于 2025-01-13 21:52:36 发布 · 1.9k 阅读

文章标签：

#python

本文详细介绍了结巴分词的基本实现原理，包括基于Trie树结构的词图扫描，动态规划查找最大概率路径，以及对未登录词采用的HMM模型与Viterbi算法。并通过《水浒传》的词频统计实例，展示了结巴分词在实际文本处理中的应用。

部署运行你感兴趣的模型镜像

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法
下面利用结巴分词队水浒传的词频进行了统计

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

try2035

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

简单的结巴分词与词频统计

zhangmary的博客

06-10

3526

#!/usr/bin/env python # -*- coding: utf-8 -*- import re import sys import jieba import json from collections import Counter reload(sys) sys.setdefaultencoding("utf-8") filename = "rowss.txt" f1 = open...

使用jieba(中文分词)库统计词频

aieraisiji的博客

03-10

6219

一、基本框架以统计水浒传人物出场次数为例，列出出场次数最高的前三名。 import jieba #引用中文分词库 txt = open("shuihu.txt","r",encoding="gb18030").read() #读取文件，注意编码 excludes = {"两个","一个"} #通过不断优化排除结果中

参与评论您还未登录，请先登录后发表或查看评论

用python统计水浒传中的高频词汇

qq_43458650的博客

04-12

5125

用python统计水浒传中的高频词汇 #词频统计.py import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只

jieba统计词频

xiaobai_IT_learn的博客

10-17

1024

1.jieba统计词频 # -*- coding: UTF-8 -*- import numpy as np import pandas as pd import jieba import jieba.analyse import codecs #设置pd的显示长度 pd.set_option('max_colwidth',500) #载入数据 rows=pd.read_csv('datas1...

NLP算法-基于 Jieba 的词频统计

Albert_weiku的博客

10-25

3045

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。一个词语出现的次数越多，越表明是该文件的核心词汇，该词语对于快速理解文章具有重要的意义。词频统计是自然语言处理技术中最基础的技术之一，在词频统计中，如何区分词是很关键的一环。

python二级第五套答案

yk 坤帝

03-30

4433

python二级第五套答案 46、《三国演义》是中国古典四大名著之一,曹操是其中主要人物,考生文件夹文件data.txt给出《三国演义》简介。问题1：请编写程序,用Python语言中文分词第三方库jieba对文件data.txt行分词,并将结果写入文件out.txt,每行一个词,例如: 内容简介编辑整个故事在东汉 … 在考生文件夹下给出了程序框架文件PY301-1.py,补充代码完成程序（10分）问题2：对文件out.txt进行分析,打印输出曹操出现次数。在考生文件夹下给出了程序框架文件PY

用python制作一个简单词云Jay歌词

weixin_44769957的博客

11-11

413

refer C:\Users\1\AppData\Local\Programs\Python\Python37\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 使用join在列表和字符串之间转换 >>> ":".join(["a","b","c"]) 'a:b:c' import jieba import wordcloud # 1.读入txt文本数据 text = open('水浒传.txt',"r",encoding="utf-8

《机器学习》——TF-IDF（关键词提取）

最新发布

will be blogging

01-13

1353

TF - IDF（Term Frequency - Inverse Document Frequency）是一种用于信息检索和文本挖掘的常用加权技术。它由两部分组成：词频（TF）和逆文档频率（IDF）。

如何运用jieba库分词

a590710的博客

04-02

2321

使用jieba库分词一.什么是jieba库 1.jieba库概述 jieba是优秀的中文分词第三方库，中文文本需要通过分词获得单个词语。 2.jieba库的使用：（jieba库支持3种分词模式）通过中文词库的方式识别精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本所有可能的词语都描述出来，有冗余搜索引擎模式：在精确模式的基础上，对长词进...

统计词频和生成词云python程序

01-03

近期因为工作需要，想利用python实现中分词频统计，然后生成图云的小程序。此前完全没有接触过这一块，各种百度后实现最初的需求，这里上传源码，希望能给其他小伙伴一点参考。

python水浒传名字次数_水浒传人物登场次数数据分析

weixin_39643679的博客

12-19

3016

这个数据分析使用的是python语言，我安装了anaconda，是在jupyter notebook中做的。首先需要引入可能用到的库：小案例一是一个基本的文本词频统计文本词频统计的结果如下(出现次数最多的108个词)：宋江:2428两个:1660一个:1338李逵:1116武松:1022只见:906如何:898那里:844哥哥:754军马:704头领:701说道:691林冲:670众人:652吴用...

python词频统计实验报告_Python实验报告八

weixin_39684898的博客

02-04

3812

安徽工程大学Python程序设计班级：物流191姓名：汤振宇学号：319050108成绩：日期：2020/06/04指导老师：修宇【实验目的】：掌握读写文本文件或 CSV 文件，进而对数据进行处理的方法。【实验条件】：PC机或者远程编程环境【实验内容】：完成二个编程题。1)水浒传词频统计水浒传-词频统计描述使用词频统计的方法，生成《水浒传》出场次数最多的10个人物的姓名。‪‬‪‬‪‬‪‬‪‬...

python分析《水浒传》小说，对文本数据内容清洗、分词、统计、词云可视化展示

Together_CZ的博客

05-10

1万+

《水浒传》这个名字说起来估计看到这篇博文的朋友都不会陌生到哪里去，这是我们中国古代四大名著之一，非常的引人入胜，今天想基于《水浒传》的小说数据来做一点分析工作。由于用到的整部小说数据过大无法一次发表，这里只将本文用到的电子小说数据的第一章节贴在下面，感兴趣的都可以拿过去玩一玩： ===========================================...

三国演义人物词频统计-1

Mzjuser的博客

09-08

3197

题目来源：Python语言程序设计授课老师：嵩天、黄天羽、礼欣 hamlet小说下载路径:https://python123.io/resources/pye/threekingdoms.txt 三国演义人物词频统计-4：https://blog.youkuaiyun.com/Mzjuser/article/details/82527865 三国演义人物词频统计-3：https://blog.cs...

Python-[jieba库应用]-统计水浒传中人物出现次数

热门推荐

xxxxxiao123的博客

04-22

1万+

最近被线段树一卡，卡的我啥也不会了，也就一个星期没写博客。正巧女朋友学python，之前也跟着凑凑热闹，正巧最近问了我一个题：如何用jieba库统计水浒传人物出现得次数，并且输出前20名得人物。想了想直接暴力不久完了，管他多暴力呢文章目录思路预先处理代码部分运行结果思路主要思路：其实就是用jieba库先将文章进行拆分，然后我们创建一个字典，用来统计每个人物出现得次数，当然这里可能就会出现...

jieba库是python提供的一个标准的用于分词的函数库_如何运用jieba库分词

weixin_39722563的博客

12-04

886

使用jieba库分词一.什么是jieba库1.jieba库概述jieba是优秀的中文分词第三方库，中文文本需要通过分词获得单个词语。2.jieba库的使用：(jieba库支持3种分词模式)通过中文词库的方式识别精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本所有可能的词语都描述出来，有冗余搜索引擎模式：在精确模式的基础上，对长词进行切分3.jieba库是属于python中优秀的中文分词第...

使用python对中文文档进行词频统计

weixin_42411512的博客

05-14

2801

1、使用jieba先对中文文档进行分词处理需要处理的clean_data.csv文件内容（三列） http://you.ctrip.com/travels/1322/1360550.html地中海邮轮+罗马深度自由行宅猫行天下 http://you.ctrip.com/travels/1400/1600356.html柏林&安纳西老鼠m import sys reload(sys) sys.setdefaultencoding("utf-8") i...

用python实现中文词频统计

weixin_44984922的博客

04-11

1万+

本次代码基于用python实现英文词频统计，重复部分不再赘述。 jieba库的安装具体参考如下链接的方法 Python安装jieba库的具体步骤我把下载的文件解压到了桌面，如下是我的操作注意事项 1.要注意与英文的区别，英文里要把标点替换成空格，中文里要把标点删去，而不是换成空格。为什么不用remove？因为remove只是换掉第一个出现的标点。所以还是采用replace。 2.在对列表循...

python水浒传词频统计

09-07

使用Python进行《水浒传》的词频统计是一种常见的文本分析方法。可以通过分词工具jieba对文本进行分词处理，然后统计每个词语出现的频率。在给定的代码中，使用了jieba库对《水浒传》文本进行了分词处理，然后使用字典counts记录词语出现的频率。在统计过程中，排除了一些无效词语，比如“两个”、“一个”、“只见”等，同时对于相同对象的不同称谓进行了同一化处理。最后，按照词语的频率进行排序，并输出前十个高频词汇。因此，使用Python进行《水浒传》词频统计的代码如下所示： ```python import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只得","山寨","原来","将军","却是"} txt = open("水浒传.txt","r",encoding='gb18030', errors='ignore').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "宋江道" or word == "宋江": rword = "宋江" else: rword = word counts[rword = counts.get(rword, 0) + 1 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x<span class="em">1</span><span class="em">2</span>