
文本分析
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
N元分词算法
在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.我们来简单的做个练习:输入的是断好词的文本,每个句子一行。统计词unigram和bigram的频次,并原创 2017-03-14 17:45:18 · 3519 阅读 · 0 评论 -
DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数
DOC2VEC:所涉及的参数 class gensim.models.doc2vec.Doc2Vec(documents=None, dm_mean=None, dm=1, dbow_words=0, dm_concat=0, dm_tag_count=1, docvecs=None, docvecs_mapfile=None, comment=None, trim_rule=None, **kw原创 2017-12-08 12:20:54 · 8401 阅读 · 5 评论 -
自然语言处理算法之cw2vec理论及其实现(基于汉字笔画)
转载:请注明出处https://blog.youkuaiyun.com/HHTNAN相关论文下载:cw2vec: (Learning Chinese Word Embeddings with Stroke n-gram Information) 与2016年facebook提出的论文(Enriching Word Vectors with Subword Information)直通车全国知识图谱与...原创 2018-08-18 12:35:42 · 4070 阅读 · 5 评论 -
自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别
转载请注明出处:https://blog.youkuaiyun.com/HHTNANHanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在Python中一种是直接调用hanlp的接口pyhanlp.还有就是导入其基于Java的原始配置文件。关于pyhanlpHanL...原创 2018-08-21 15:30:53 · 13503 阅读 · 2 评论 -
Pattern matching: The gestalt approach一种序列的文本相似度方法
Pattern matching: The gestalt approachpython 比较两个序列的相似度,不需要分词案例1import diffliba="做子宫肌瘤微创手术用多少钱"b="股癣是什么样子的?怎么治疗股癣好?"print (difflib.SequenceMatcher(None,a,b).rat原创 2019-02-26 13:39:13 · 1539 阅读 · 0 评论