
自然语言处理
奇文王语
悠长岁月平静,无事亦是蹉跎
展开
-
NLP技术发展史
1:NLP技术发展时序图原创 2021-10-28 14:35:36 · 494 阅读 · 0 评论 -
NLPer核心竞争力是什么?
NLPer的危机核心开源工具越来越多CNN、RNN、Transformer、Seq2Seq等。深度学习技术出现后,特征工程做的越来越少。NLP门槛逐渐降低有众多的开源工具和预训练语言模型可用。算力成为主要的瓶颈。NLPer的核心竞争力一个核心非机构、半结构化—>结构化是NLP的核心问题两个能力发现问题的能力解决问题的能力三个优势对基本概念,定义理解更精准对领域数据更敏感对研究方向有更好的品味自然语言处理的本质从无结构化序列中预测有结构化语义(句法分析、命名原创 2021-10-12 10:31:17 · 330 阅读 · 0 评论 -
机器阅读理解技术简介
1:什么是机器阅读理解任务机器阅读理解任务类似英文的阅读理解题型,输入:篇章P和问题Q,输出:答案A的过程。2:机器阅读理解任务类型机器阅读理解任务主要包含四种类型:选择型、填空型、抽取型、生成型。填空型阅读理解任务在该类型的任务中,给定一段文本并移除其中若干词或者实体作为问题,模型需要在被删除的位置填入正确答案。部分数据集提供了候选答案,而另外一些数据集则未提供,只能从上下文中寻找。选择型阅读理解任务选择型阅读理解即根据问题和给定的文本中在若干候选答案中选择正确的答案。抽取型阅读理解任务原创 2021-10-08 11:44:19 · 321 阅读 · 0 评论 -
AttributeError: module ‘tensorflow‘ has no attribute ‘compat‘
安装tensorflow2.0后出现以上bug,解决该bug的方法是让tensorflow-estimator的版本和tensorflow的版本一致就可以。原创 2020-10-13 14:00:26 · 1476 阅读 · 3 评论 -
OSError: libcudart.so.10.0: cannot open shared object file: No such file or directory
针对上述bug 通过检查是安装的cudnn和cudatoolkit的版本不对造成的。通过更新cudatoolkit=10.0.130 和cudnn=7.6.5版本后,上述bug就解决了安装方法如下所示:conda install cudatoolkit=10.0.130 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/conda install cudnn=7.6.5 -c https://mirrors.tu原创 2020-06-30 12:06:14 · 3836 阅读 · 1 评论 -
用keras调用load_model时报错ValueError: Unknown Layer:LayerName
出现该错误是因为要保存的model中包含了自定义的层(Custom Layer),导致加载模型的时候无法解析该Layer解决该问题的方法是在load_model函数中添加custom_objects参数,该参数接受一个字典,键值为自定义的层:ner_model = load_model(model_path + 'ner_crf_bilstm_model.h5', custom_objects...原创 2019-04-18 09:30:39 · 9500 阅读 · 4 评论 -
from flair.data import Sentence出现的Bug
mportError: /home/user/anaconda2/envs/py36/lib/python3.6/site-packages/scipy/spatial/ckdtree.cpython-36m-x86_64-linux-gnu.so: symbol _ZTINSt8ios_base7failureB5cxx11E, version GLIBCXX_3.4.21 not define...原创 2018-12-28 19:28:59 · 325 阅读 · 0 评论 -
成功解决在部署CNN,RNN等模型出现的ValueError: Tensor Tensor("dense_2/Softmax:0"bug
ValueError: Tensor Tensor(“dense_2/Softmax:0”, shape=(?, 15), dtype=float32) is not an element of this graph. 对于上面的bug,猜测估计是python2.7出现的编码问题。解决方法: 在加载模型后,首先自定义一条模型可以处理的案例,让模型预测一下,就可以避免上述bug的出现。 具...原创 2018-09-10 10:15:12 · 3339 阅读 · 0 评论 -
解决bug FutureWarning:
成功解决bug FutureWarning: Conversion of the second argument of issubdtype from float to np.floating is depr包内出错,是h5py包 解决办法 对h5py进行更新升级 pip install h5py==2.8.0rc1...原创 2018-09-04 16:32:51 · 4679 阅读 · 0 评论 -
Python Handle data skill
Technique1:delete the missing valuesdataframe.dropna(axis=0, how='any', inplace=True)2: delete the duplicate valuesdataframe.drop_duplicates(inplace=True)3:replace the element of dataframe columndatafr原创 2017-10-17 18:35:25 · 793 阅读 · 0 评论 -
HMM(Hidden Markov Model)学习
HMM有三个典型的问题: 已知模型参数,计算某一特定输出序列的概率,通常使用forward算法解决。 已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列,通常使用Viterbi算法解决。 已知输出序列,寻找最可能的状态转移以及输出概率,通常使用Baum-Welch算法以及Reversed Viterbi算法解决。原创 2017-07-01 09:58:53 · 407 阅读 · 0 评论 -
斯坦福大学命名实体识别
一、分词介绍 http://nlp.stanford.edu/software/segmenter.shtml 斯坦福大学的分词器,该系统需要JDK 1.8+,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示 ,进入data目录,其中有两个gz压缩文件,分别是ctb.gz和pku.gz,其中CTB:宾州大学的中国树库训练资料 ,PKU:中国北京大转载 2017-06-29 11:18:28 · 1613 阅读 · 5 评论 -
命名实体识别方法
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2017-06-29 10:58:57 · 2146 阅读 · 0 评论 -
WordNet学习笔记
WordNet::Similarity是一个Perl实现的软件包,可以用来计算两个概念之间的语义相似度,它总共提供了六中计算相似度和三种计算概念之间关联度的方法,所有的这些方法都是基于WordNet这个词汇数据库。 所依附的文件库有: WordNet Digest-SHA1 WordNet::QueryData Text-Similarity 下载的位置如下: WordNet:[htt原创 2015-10-26 18:12:04 · 762 阅读 · 0 评论 -
基于案例推理
5.1概述 基于案例推理(CBR,case base reasoning),是高级人工智能的一个比较成熟的一个分支。是基于过去的实际经验或经历的推理。基于案例推理对人工智能所做出的贡献主要表现在如下几个方面: (1)知识获取 (2)知识维护 (3)改进问题求解效率:基于案例推理复用过去的解答,无需同常规推理那样从头做起。 (4)改进原创 2015-07-02 17:01:30 · 7346 阅读 · 0 评论 -
基于本体的自动问答系统
自然语言处理的一个分支–自动问答系统 本体(Ontology)的应用: (1)信息检索 (2)自动问答 分词 停用此词处理 相似度计算 词语相似度计算 句子相似度计算 改原创 2015-07-02 10:10:08 · 1506 阅读 · 0 评论