- 博客(6)
- 收藏
- 关注
原创 关于最近自然语言处理的一些心得体会(二)
在分词方面 我最终选用了JIEBA分词:我通过AINLP公众号进行了对比 ,对比结果如下:通过其分词结果可以看出效果比较好的有:jieba, HANLP, BaiduLac之前笔者尝试过斯坦福nlp 由于其在中文分词的里面分的将词汇分的过于精细,导致其分词效果到达不了我们想要的结果,最终笔者选择了jieba。ps: HANLP感觉很是很棒的, 大家也可试一下。在这里给大家推荐一个中文分局的方法:用python进行精细中文分句(基于正则表达式)那么我们继续进行下一步的步骤。我们首先将
2021-10-20 11:03:28
1860
原创 关于最近自然语言处理的一些心得体会(一)
首先是关与文档处理: 在我们批量处理文档的时候,首先要做的是读取某个文件夹下的所有txt文件名,并通过文件名来定位其文件并读取。因此:我们可以用os.listdir命令进行读取。具体在python实现如下:path = "E:/pythoncode/test-corpus/corpus"filename = os.listdir(path)filenames = []doc = []for i in filename: filenames.append(i) # ..
2021-10-18 16:30:49
1001
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人