
nlp
jinmingz
ASR SRE DeepLearning
展开
-
word2vec 几点理解
1. one-hot 表示形式的缺点: a. 一般任务词汇量至少1w+,维度灾难 b. 没有考虑词之间的联系,“词汇鸿沟”2. 小概念术语: word embedding 和 word2vec。 Word embedding 是 词嵌入,是所有word represent 方法的总称,而word2vec只是其中的一种方式。3. word2vec 一般常用的两个工具,分别是go...原创 2018-08-02 00:21:47 · 2041 阅读 · 0 评论 -
python 调用 java 的 ansj_seg 分词工具
解决方案链接: https://github.com/NLPchina/ansj_seg/issues/681提供给对于 java不熟, 不想用jiaba分词, 对 ansj_seg 念念不忘的同学们一个 python 一个解决方案: 环境: python2.7 jdk1.8.0_161 tree_split-1.5.jar, nlp-lang-1.7.7.jar和 ansj_seg-5....原创 2018-09-11 23:34:26 · 2642 阅读 · 2 评论 -
Facebook/LASER 应用到Paraphrase任务
首先跑通xnli的代码,根据xnli的中间结果或者数据格式来修改我们自己的任务.修改 xnli 任务记得的几个坑:1. 下载 XNLI-1.0.zip 报错了, 下载地址的问题, 根据ReadMe找到原始的下载地址, 修改为 xnli_http="https://www.nyu.edu/projects/bowman/xnli"2. 安装 pip install jieba ...原创 2019-02-18 16:47:09 · 500 阅读 · 0 评论 -
Stanford中文分词
参考:https://stackoverflow.com/questions/45663121/about-stanford-word-segmenter/45668849https://cloud.tencent.com/developer/article/1346917主要解决方法: https://github.com/nltk/nltk/pull/1735 命令行: ...原创 2019-06-18 00:14:51 · 1138 阅读 · 0 评论