toy
文章平均质量分 87
战战兢兢
好好学习,天天向上,生命不息,进步不止,加油加油。fighting(给自己鼓劲儿的)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python:epub文件批量转TXT
写在前面代码很菜,而且写了很久之后才写的笔记,代码里仅包含主要函数的实现。原因有很多很多,大概8000本epub文件需要转换成TXT。没找到现成工具偷懒,就想写一段代码代工。缺点只对文字有效,图片类无法转化。原理先转换成压缩包,解压缩得到一些包含图书内容的html文件,从html标记中获取文本并保存。 * 转换成压缩包:修改文件名后缀为’.rar’ * 解压缩:...原创 2018-05-27 15:31:09 · 7379 阅读 · 0 评论 -
中文分词
写在前面我是菜鸟(先表明身份) 实习过程中,没有任务的期间,自己找了一些事情做。比如toy级的中文分词工具。内附参考链接。中文分词问题列表分词歧义未登录词识别改进方案基于N-gram模型筛选双向最大匹配中最优结果基于N-gram模型组合双向最大匹配分词结果,并返回最优结果难点目前使用的是搜狗字典,基于N-gram需要对完整语料构建模型,计算词...原创 2018-05-27 15:53:21 · 426 阅读 · 0 评论
分享