通过手写代码,输入一本小说的路径文件,对小说文本段落预处理,然后截取叙述的段落,统计前面词语出现的频率,如果是小说中的人名,一定会高频出现,并且剔除掉其他无关字,实现筛选出一本小说中的人名。
这个代码,没有依赖其他的分词库之类的,纯粹地截取字频去统计。
由于代码太长,所以打包成了exe文件,没有python环境的新手,也可以使用。
这个项目文件也同时上传到gitee码云上面,需要的可以去下载 。一定要下载整个文件夹,配合exe文件使用的。
筛选出来的人名,同时也会按照在小说中出现的顺序排序。
筛选出来的结果,就像下面这样,放在输出文件夹里。
冯子才
楚强
楚威龙
程雄
方宏信
刘雪梅
崔亮
梁坤
崔岩峰
程英
雷老虎
杨九
黄管家
孙东明
杨建业
刘敏
张媚
郝强
尹秀
田秋
钱明昌
刘云峰
杜建筑
赵洪光
苏明武
何宏盛
王裘
钱思礼
天哥
张天
侯百川
这是软件的整个界面