
自然语言处理
简简丹
这个作者很懒,什么都没留下…
展开
-
1.1搜索文本和计数词汇常用的函数
最近在学《python自然语言处理》这本书,写博客就当做笔记concordance函数 关键词语索引,显示某个词的出现情况和上下文text1.concordance("monstrous")similar函数 查询括号中相关词在上下文相似的词语text1.similar("monstrous")common_contexts函数 研究共用两个或者两个以上词汇的上下文 tex原创 2017-09-09 11:27:49 · 1027 阅读 · 0 评论 -
卷积神经网络实现文本分类
源代码链接(github地址)https://github.com/dennybritz/cnn-text-classification-tf参考博文: https://blog.youkuaiyun.com/github_38414650/article/details/74019595数据集:https://github.com/cystanford/text_classification包含训练...原创 2019-03-28 09:57:02 · 2927 阅读 · 0 评论 -
分词、去停用词
分词、去停用词#https://github.com/xgli/jiebaimport osimport jieba# 未分词语料库路径corpus_path =r' '# 分词后语料库路径seg_path = r' '# 停用词路径stop_list_Path = r' 'def stopwordsList(stop_list_Path): f = open(s...原创 2019-03-27 21:40:42 · 3614 阅读 · 0 评论 -
分类问题集锦及练习
sklearn 数据划分方法 https://www.cnblogs.com/hellcat/p/7045585.htmlK-折交叉法留一法随机划分法准确率(P),召回率®、F1值 、ROC曲线、阈值几者的关系?增加准确率会降低召回率,反之亦然。这叫做准确率与召回率之间的折衷如何计算(输入:样本真实标签、样本预测标签)ROC是真正例率(正例被正确分类的,召回率)比假正例率(反例被错...原创 2019-03-24 18:21:50 · 522 阅读 · 0 评论 -
gensim word2vec
1.参数说明gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mea...原创 2019-03-24 18:20:25 · 340 阅读 · 0 评论 -
1.2将文本当做词链表
1.链表:指的是python中列表里的内容,是存储文本的方式。 e.g. sent1=[‘call’,’me’,’Ishmael’,’.’] 操作:连接(加法)sent1+sent2 追加元素 sent1.append( ) 2.索引:列表中某个文本的位置的数字,可用来获取文本中词汇,从0开始。 e.g. sent1[0]=’c原创 2017-09-09 13:16:35 · 289 阅读 · 0 评论