
NLP
一个小白的自述
工作不享受,享受不工作。
展开
-
短文本相似度计算
短文本相似度计算引用优快云**经典的一句话:调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步。文本相似度计算步骤如下:分词; def tokenization(self, line): result = [] words = jieba.lcut(line) for word in words: ...原创 2019-03-13 22:30:21 · 898 阅读 · 0 评论 -
三. CNLP-NLP-中文分词的流程
以HanLP为例子,讲解中文分词的流程HanLP的整体运行流程如下:原创 2019-06-20 14:04:59 · 771 阅读 · 0 评论 -
CNN在NLP领域的应用-文本语义相似度计算
CNN在NLP领域的应用-文本语义相似度计算https://blog.youkuaiyun.com/diye2008/article/details/53762124转载 2019-06-21 17:52:46 · 2067 阅读 · 0 评论 -
一. 实体链接小结
【定义】实体链接(Entity linking,EL),将文本中的实体提及映射到给定的知识库(KB),在许多领域起到了非常有趣的基础作用,例如问题回答、语义搜索和信息提取。【主要阶段】(i)候选生成:为每个提及在KB中获得一组引用实体;(i i)命名实体消歧:通过计算提及和候选实体之间的相似度,并解决排序问题来选择可能的候选实体。我们将现有的实体链接模型分为两种:local model...转载 2019-06-22 09:22:03 · 3507 阅读 · 0 评论 -
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记
文章目录实体链接:概念理解一. 研究背景二. 应用场景示例一. 以实体为中心的精准信息聚合1. 跨社交网络的信息集成二. 构建知识库三. 关键技术一. 引用表构建二. 实体知识构建1. 实体知名度2. 实体上下文3. 实体语义关联度4. 文章主题三. 链接推理算法(一)局部推理(二)全局推理四. 总结实体链接:概念理解一. 研究背景信息过载:大数据时代,信息爆炸,直接导致信息过载;...原创 2019-06-22 11:21:53 · 3402 阅读 · 0 评论 -
实体链接参考
实体链接参考实体链指:https://www.ctolib.com/mip/bojone-el-2019-baseline.html实体链接项目:https://blog.youkuaiyun.com/github_39012302/article/details/86664716参考资源:https://www.jianshu.com/p/3627348eadbbhttps://wenku.bai...原创 2019-06-22 11:40:32 · 2889 阅读 · 0 评论 -
word2vec缺少单词怎么办?
unk技巧 在训练word2vec之前,预留一个符号,把所有stopwords或者低频词都替换成unk,之后使用的时候,也要保留一份词表,对于不在word2vec词表内的词先替换为unk。subword技巧 这个技巧出自fasttext,简而言之就是对oov词进行分词,分词之后再查找,找到的就保留,找不到的继续分词,直到最后分到字级别,肯定是可以找到的对应字向量的。BPE技巧BPE...转载 2019-07-07 10:13:50 · 2156 阅读 · 0 评论 -
转发《一文理解 Transformer 的工作原理》
这篇文章对于理解Transformer有很大帮助@author @translator一文理解 Transformer 的工作原理转载 2019-07-07 10:47:14 · 407 阅读 · 0 评论 -
jieba结巴分词--关键词抽取(核心词抽取)
https://blog.youkuaiyun.com/suibianshen2012/article/details/68927060转载 2019-07-30 18:44:27 · 3394 阅读 · 0 评论 -
使用bert将中文文本转化成词向量的方法
使用bert将中文文本转化成词向量的方法https://blog.youkuaiyun.com/qq_29660957/article/details/88683823转载 2019-07-31 08:58:30 · 5745 阅读 · 0 评论 -
AttributeError: 'Word2Vec' object has no attribute 'vocab'
AttributeError: ‘Word2Vec’ object has no attribute ‘vocab’在 Gensim 1.0.0 版本后移除了 vocab,需使用:model.wv.vocab原创 2019-08-14 17:14:07 · 3228 阅读 · 0 评论 -
二. CNLP-NLP-分词
中文分词-即将中文汉字序列切分成一个一个单独的词语,中文分词是NLP的第一步。一. pyltp安装pyltp:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyltp部署语言模型库:具体部署方法参考:哈工大语言云(LTP)本地安装使用及Python调用模型:链接: https://pan.baidu.com/s...原创 2019-06-07 18:26:48 · 354 阅读 · 0 评论 -
一. CNLP-NLP-简介
最近在拜读郑捷老师的《NLP汉语自然语言处理原理与实践》,姑且简称CNLP,在阅读的过程中,记录下自己的收获与心得,以便以后翻阅查看。自然语言处理的应用领域:信息检索、信息抽取、数据挖掘、舆情分析、文本摘要、自动问答系统等;自然语言处理的主要任务:从最初的对词的研究,发展到现在的对句子的研究,即对句法、句意、以及句子生成的研究,已经能够比较好的解决句子层面的问题,但还没达到解决篇章层面的问...原创 2019-06-07 15:59:46 · 1127 阅读 · 0 评论 -
Python如何读取训练好的词向量?
读取word2vec训练好的词向量 def load_word2vec_object(self, source_data_path): source_data = open(source_data_path, 'rb') source_data_dict = {} for i, line in enumerate(source_data):...原创 2019-03-14 16:01:56 · 3021 阅读 · 3 评论 -
意图识别-情感分析
今天天气很好,一大早起来把衣服床单鞋子都洗了一遍,做饭,吃完饭之后爬山,爬山已经坚持3周了,继续加油!这两天在写关于意图识别的PPT,还没有对意图识别里面的具体算法实现进行总结,只是花了个龊图,见笑了。...原创 2019-03-17 21:38:05 · 1984 阅读 · 0 评论 -
FastText使用总结
一. 简介FastText是2016年由Facebook AI Research开源的算法,算法主要包含三个部分:模型架构,层次Softmax和N-gram特征。模型架构:FastText的模型架构和Word2Vec的CBOW模型类似。不同之处在于,FastText预测标签,而CBOW模型预测中间词; 层次Softmax:Softmax建立在哈弗曼编码的基础上,对标签进行编码,能够极大地...原创 2019-05-09 22:03:37 · 1148 阅读 · 0 评论 -
基于simhash的短文本去重
直接上代码#!/usr/bin/env python# -*- coding:utf-8 -*-# author:WWF# datetime:2019/3/26 9:37"""利用simhash进行文本去重"""from simhash import Simhash, SimhashIndeximport jiebaimport codecsimport datetime...原创 2019-05-09 22:35:55 · 1191 阅读 · 0 评论 -
ImportError: cannot import name 'abs'
When I install the package of tennsorflow, I met the following Error prompt:ImportError: cannot import name 'abs'The reason is that the version of tensorflow is not consists of the version of the pa...原创 2019-05-15 15:51:08 · 276 阅读 · 0 评论 -
中文摘要提取方法(一)
Three main method to extract text abstractOne: TextRankTwo: LexRankThree: seq2seq+attention参考:深度学习提取文本摘要文本摘要中的NLP技术原创 2019-05-15 22:57:23 · 4305 阅读 · 0 评论 -
基于规则的常用实体信息抽取
文本中经常涉及到一些信息的抽取,有的是通过CRF算法来实现的,如:人名、地名、机构名等,有的则可以通过规则来实现,本文就常用的实体,如电话号码、身份证号码等信息的抽取做一个总结。1. 文本中url地址抽取regex = "(http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+)|([a-zA...原创 2019-05-20 22:51:08 · 5820 阅读 · 1 评论 -
汉语转拼音工具
汉语转拼音工具项目地址:https://github.com/mozillazg/python-pinyin简单应用示例from pypinyin import pinyin, lazy_pinyin, Stylepinyin('安徽')[['ān'], ['huī']]pinyin('中心', heteronym=True) # 启用多音字模式[['zhōng', 'zhò...原创 2019-05-21 22:49:11 · 820 阅读 · 0 评论 -
中文词向量的训练以及评估方法
项目主要包括不同参数下训练好的词向量项目地址:https://github.com/Embedding/Chinese-Word-Vectors目前中文词向量的训练主要有下面三种方法:一. word2vector二. Glove三. FastText...原创 2019-05-21 22:56:47 · 1958 阅读 · 0 评论 -
Tensorflow 2.0地址 和Andrew Ng公开学习视频地址
Tensorflow 2.0地址 和Andrew Ng公开学习视频地址TensorFlow 2.0 Alpha 版官方网址:https://www.tensorflow.org/alphaTensorFlow 2.0 Alpha 版开源地址:https://github.com/orgs/tensorflow/projects/4学习课程链接地址:https://www.deeplearni...原创 2019-05-21 22:59:22 · 426 阅读 · 0 评论 -
Cannot interpret feed_dict key as Tensor: Tensor Tensor("Placeholder_8:0", shape=(3, 3, 128, 256), d
错误描述使用flask框架开一个基于keras的lstm分类server的时候,第一次调用接口正常,第二次就报如下错误:Cannot interpret feed_dict key as Tensor: Tensor Tensor("Placeholder_8:0", shape=(3, 3, 128, 256), dtype=float32) is not an element of thi...原创 2019-08-17 15:16:10 · 6982 阅读 · 2 评论