- 博客(4)
- 收藏
- 关注
原创 毕业设计第二次总结(基于知识图谱的医疗问答)
毕业设计第二次总结(基于知识图谱的医疗问答)从这次总结开始,我将会按照我写毕设的总体思路和设计方案流程来书写我的博客,希望对大家能有帮助,这次博客会比较长,废话可能有点多,大家挑自己在意的方面选择观看。博客最后会附上第一版的项目的github地址。
2022-03-28 15:36:11
6211
10
原创 使用jieba加载自定义词典对语料进行BIO词性标注。
本文章只提供大致思路,至于结巴的具体使用,和其他相关知识不做阐述标注前的装备工作:(1)::已经预处理过的需要分词的语料(需要分词的语料要符合结巴分词的要求,每句一行,并且以句号做结尾)(2):一份手动标注好的自定义词典(包含词性),如下进行词性标注处理:具体代码如下:import codecsimport jieba.posseg as psimport jiebainfile...
2019-11-25 19:48:16
4027
8
原创 简单的中文分词和词向量化
**在做分词前需要做的准备:**(1):已经预处理过的需要分词的语料(需要分词的语料要符合结巴分词的要求,每句一行,并且以句号做结尾)(2):需要一份相关方面的词典用于更加专业化的分词,单纯的使用结巴分词不能很好的分出你需要的词,会影响到你以后词向量化阶段。(3):需要一份停用词表,因为结巴分词不能很好的把一些没有实际意义的词去掉,这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些...
2019-11-25 11:34:34
2821
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人