
nlp应用
文章平均质量分 51
主要涉及nlp的各个应用的方向,包括数据处理以及解决技巧
旺旺棒棒冰
做正确的事,正确得做事
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文拼写纠错数据增强记录
随机替换正确句子中的汉字或词,构造错误句子用什么替换: 混淆集 (一个字可能错成什么字,已经收集构建好)问题: 如果不用混淆集,随机替换为某个词典中的某个汉字会怎样呢?10%随机--> 100%随机0. 关于数据来源1. 关于混淆集2. 关于引入错误的方式...原创 2022-05-27 15:44:14 · 625 阅读 · 2 评论 -
中文错别字纠正评价代码
def eval_sighan2015_by_model(sighan_path): """ Args: correct_fn: input_eval_path: output_eval_path: verbose: Returns: Acc, Recall, F1 """ TP = 0.0 FP = 0.0 FN = 0.0 TN = 0.0 tota.原创 2022-03-30 17:02:40 · 840 阅读 · 0 评论 -
论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based
来源:爱奇艺EMNLP2019 Workshop论文:https://aclanthology.org/D19-5522.pdf代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)目录模型结构1. 基于bert掩码语言模型的微调2. 基于汉字相似度的解码器汉字相似度实验结果..原创 2022-03-14 13:11:38 · 1406 阅读 · 0 评论 -
汉语拼音中的声母与韵母
汉语拼音声母和韵母发音方法转载 2022-03-10 16:01:39 · 589 阅读 · 0 评论 -
安装pattern出错mysql_config not found
Pattern是Python的一个web挖掘模块。它有工具:1. 数据挖掘: web服务(谷歌,Twitter,维基百科),网络爬虫,HTML DOM解析器 2. 自然语言处理: 词性标记,n-gram搜索,情感分析,WordNet3. 机器学习: 向量空间模型,聚类,分类(KNN, SVM,感知器)4. 网络分析: 图形中心性和可视化。它有很好的文档,经过了350多个单元测试,并附带了50多个示例。GitHub - clips/pattern: Web mining m...转载 2022-02-28 19:31:53 · 801 阅读 · 0 评论 -
nlp任务分类及适用方法
转载 2022-02-26 10:20:36 · 488 阅读 · 0 评论 -
python获取同音字
利用汉字转拼音项目,简单实现获取一个汉字的同音字1. 安装汉字转拼音包pip install pypinyin2. 获取所有汉字的拼音表示,相同拼音的汉字存储在以拼音为key的字典中,考虑声调from pypinyin import pinyin, lazy_pinyin, Styleimport osimport pickle# 获取所有汉字的拼音表示,相同拼音的存储在以拼音为key的字典中,考虑声调def get_all_char_pinyin(): .原创 2022-02-07 17:25:08 · 3563 阅读 · 3 评论 -
的得地使用辨析
原创 2022-01-13 11:49:35 · 112 阅读 · 0 评论 -
nlp面试题目集锦
(1)介绍dropout,为什么可以起到防止过拟合的作用答 : Dropout是什么?为什么Dropout可以防止过拟合?(2). 使用的模型的计算量,Flops(3)共享参数,为什么可以提升效果(起到正则化的作用)(4)LSTM和transformer的各自的优缺点,以及复杂度分析(5)BN层和LN层的区别,为什么自然语言处理里面用LN层关于batch normalization和layer normalization的理解(6)有什么神经网络的语言模型,不用dropout的结果更好(Al原创 2021-09-23 22:27:09 · 1554 阅读 · 0 评论 -
各种子词分词方式
gpt-1用的是Byte-Pair-Encodingbert 与 electra 用的是WordPiecerobert和gpt-2 用的是byte-level Byte-Pair-Encoding [bbpe]xlnet与albert 用的是SentencePiece原创 2021-08-27 18:16:07 · 524 阅读 · 0 评论 -
浅层分析-shallow parsing
Shallow parsing 又叫Chunking(分块)是介于词性标注和Constituency parsing 之间的一种浅层分析方法。介绍从解决方法上看与命名实体识别NER相似。例如上图中,从句子 "We saw the yellow dog",提取出名词短语块,称为NP-chunk。最后得到相应的浅层句法结构常用的标签也与NER任务相同,有BMES,BIO,BIOE。标签与相应的块名称X组合, 例如B-NP 代表块名词短语的开头。句子中的短语块,一般有以下几种类型:但是现有的工具(原创 2021-08-13 15:35:27 · 655 阅读 · 0 评论 -
衡量文章词汇复杂度Type Token Ratio (TTR)
Type Token Ratio (TTR): 一种有用的衡量复杂性的方法,它记录词汇丰富程度或词汇的多样性。Token 形符:文章所用单词总数,包括标点的字数Type 类符:文章中不重复单词的数量TTR: 类符数 / 形符数参考: https://carla.umn.edu/learnerlanguage/spn/comp/activity4.html...原创 2021-08-12 16:07:00 · 9529 阅读 · 0 评论 -
Long Short-Term Memory Over Tree Structures
这里首先要明白两种网络:recursive neural network 递归神经网络:网络是定义在递归树结构上,每一个树结点是从它的孩子计算出来的向量。叶子节点和中间节点自底向上的组合。recurrent neural network 循环神经网络:链式结构,LSTM是循环神经网络的特例。递归神经网络示例,来自论文Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank句子的语义并不是单词的线性原创 2021-07-20 19:57:47 · 537 阅读 · 0 评论 -
简单树匹配算法STM-理论篇
内容来自论文@article{何昕2007基于简单树匹配算法的, title={基于简单树匹配算法的Web页面结构相似性度量}, author={何昕 and 谢志鹏}, journal={计算机研究与发展}, number={z3}, pages={1--6}, year={2007}}简单树匹配算法SimPle Tree Matching 最初在软件工程上用于比较两个计算机程序,后引入网页结构相似度计算。主要考虑页面的结构信息,假设含有相似信息的页面也具有相似的结构。将原创 2021-07-20 13:07:12 · 2203 阅读 · 2 评论 -
可视化文本结构树
通过现有的一些自然语言处理的工具,例如spacy,coernlp可以得到句子的结构,为了便于观看,需要可视化句法结构树(1)利用nltk中的Tree类来可视化解析结果tree_str = '(S (NP this tree) (VP (V is) (AdjP pretty)))'# 直接显示句法结构Tree.fromstring(tree_str).draw()(2)利用CanvasFrame和print_to_file保存句法结构from nltk import Treefrom nlt原创 2021-07-13 20:07:43 · 684 阅读 · 0 评论 -
jave使用corenlp
corenlp斯坦福大学开发的基于java语言的自然语言处理工具,能够为文本多种语言学标注,包括分词,句子边界,词性标注,命名实体识别,数字与时间,句法解析(dependency and constituency parses),指代消解,情感,引用归因,关系。目前支持6种语言:阿拉伯语、汉语、英语、法语、德语和西班牙语。属于一个原始句子,会经过上图一系列的标注处理,产生标注集合。词性标注:命名实体识别:依存句法解析:指代消解:使用流程:(1)从官网下载并解压 CoreNLP 4.原创 2021-07-13 11:51:54 · 969 阅读 · 0 评论 -
修辞结构理论论文集合
收集了一下近几年用修辞结构理论做篇章结构解析的论文,并给出相应的实验结果。做英文篇章RST解析,一般都是用RST Discourse Treebank数据集,共385篇文章,其中347篇训练集,38篇测试集。评价指标有四个, 来自书籍The Theory and Practice of Discourse Parsing and Summarization:Span:评价预测RST树结构的能力Nuclearity:评价预测RST树结构和Nuclearity(核心)的能力Relation:评价预测R原创 2021-07-05 20:02:29 · 1134 阅读 · 2 评论 -
spacy存在内存泄露问题
2.1.9 之前的版本都存在内存泄露的问题。spacy 2.1.9 说是解决了内存泄露的问题,但其实没有解决。spacy 2.2.5 说是解决了内存泄露的问题,但是没有完全解决,在使用nlp.pipe()处理,依然有问题。使用nlp(text)不存在内存泄露问题例子:在这里插入代码片...原创 2021-06-30 16:40:19 · 293 阅读 · 0 评论 -
语篇分析之连接词分析
Predicting the Presence of Discourse ConnectivesAutomatic Prediction of Discourse Connectives原创 2021-06-25 13:11:52 · 2978 阅读 · 0 评论 -
DisSent: Learning Sentence Representations from Explicit Discourse Relations
来源:acl2019链接:https://arxiv.org/pdf/1710.04334.pdf代码:https://github.com/windweller/DisExtract只有将两个句子的语义结合起来,才能确定的句间关系,因此可以利用显性语篇关系(包括句间关系)来学习句子表征。通过引入显性语篇关系,在两个下游任务上取得了较好的结果,一个是GLUE数据集上的各类语义任务,一个是PDTB数据集上的相邻句子对的隐式关系分类(达到了STOA)Discourse Prediction Task原创 2021-06-24 23:41:12 · 353 阅读 · 1 评论 -
语篇连贯度分析
包括语篇全局连贯度分析(分体裁)和 语篇局部连贯度分析https://oneepochaway.com/discourse-coherence-intro/https://oneepochaway.com/discourse-local-coherence/原创 2021-06-23 17:35:00 · 542 阅读 · 0 评论 -
修辞结构理论
修辞结构理论 (Rhetorical structure theory)修辞结构理论( RST) 是由文献[Mann and Thompson, 1987] 等提出的有关篇章分析和生成的理论, 主要针对篇章连贯性问题。 该理论通过描述各部分的修辞关系来分析篇章的结构和功能, 这些大小不一的部分被称为结构段( text span) 。 修辞结构理论提出了两种篇章单位: 核心( nucleus) 和卫星( satellite) 。 核心是篇章最重要的部分, 表示中心信息的单元, 具有相对完整的语义。原创 2021-06-03 10:11:54 · 4471 阅读 · 0 评论 -
effective_transformer
对字节跳动effective_transforerhttps://github.com/bytedance/effective_transformer原创 2021-06-02 09:49:02 · 562 阅读 · 0 评论 -
如何使用wordnet
介绍WordNet是包含了语义信息英语词典。wordnet根据词条的语义分组,相同语义的词条组合在一起称为synset(同义词集),一个一词多义的词将出现在它的每个语义对应的同义词集中wordnet为每一个synset提供了简短,概要的定义,并记录不同synset之间的语义关系在 wordnet中,名词,动词,形容词和副词各自组织成一个同义词的网络,四种不同词性的网络之间没有连接python调用wordnet可通过nltk工具包来导入wordnetfrom nltk.corpus impo原创 2021-05-31 23:53:41 · 2524 阅读 · 5 评论 -
bpe分词
AAT=(α1α2⋮αn)(α1Tα2T⋯αnT)AA^\mathrm{T}=\left(\begin{array}{c}\alpha_{1} \\ \alpha_{2} \\ \vdots \\ \alpha_{n}\end{array}\right)\left(\begin{array}{llll}\alpha_{1}^{\mathrm{T}} & \alpha_{2}^{\mathrm{T}} & \cdots & \alpha_{n}^{\mathrm{T}}\end{arr原创 2021-05-25 12:40:05 · 2197 阅读 · 2 评论 -
组合范畴语法 CCG
组合范畴语法 CCGCombinatory Categorial Grammar从逻辑语义学视角看,CCG提供句法与语义转换的接口,将自然语言转换成逻辑结构一个转换例子:acl2020论文Logical Inferences with Comparatives and Generalized Quantifiers使用CCG将句子转成逻辑形式,从而辅助解决NLI中处理数词量词困难的问题。代码:https://github.com/izumi-h/...转载 2021-04-02 18:12:51 · 850 阅读 · 0 评论 -
领域自适应简述
摘自 https://zhuanlan.zhihu.com/p/21441807 深度学习大讲堂在经典的机器学习问题中,我们往往假设训练集和测试集分布一致,在训练集上训练模型,在测试集上测试。然而在实际问题中,测试场景往往非可控,测试集和训练集分布有很大差异,这时候就会出现所谓过拟合问题:模型在测试集上效果不理想当训练集和测试集分布不一致的情况下,通过在训练数据上按经验误差最小准则训练的模型在测转载 2017-12-11 15:50:21 · 26790 阅读 · 10 评论