在嵩天教授的jieba库之hamlet与threekingdoms词频统计实例中,遇到了以下两个问题:
1.无法读取带有BOM的utf-8 txt文件(指threekingdom实例)
2.读取文件时斜杠与反斜杠的效果不同(hamlet实例中用反斜杠"\", threekingdom实例中用斜杠"/")
解决问题:
1.有网友提出同codecs库转化格式,但是自己不会安装codecs库,于是我在文本工具中将“带有BOM的utf-8"文件另存为”utf-8"文件以后,认为没问题了,但是还是出现了问题,如下图:


2.这里我不清楚斜杠与反斜杠具体的作用,但是出现的情况是:读取英文文件hamlet使用反斜杠"\", 读取中文文件threekingdoms使用斜杠"/".
小白一枚,希望大佬能指正。
探讨jieba分词库在处理Hamlet与ThreeKingdoms文本时遇到的问题,包括BOM格式utf-8文件读取及斜杠与反斜杠路径差异。分享解决方案与学习心得。
2万+

被折叠的 条评论
为什么被折叠?



