实验报告
文章平均质量分 86
子墨777
Try to make yourself more excellent!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Dynamic Connected Networks for Chinese Spelling Check(ACL2021)
文中认为基于bert的非自回归语言模型依赖于输出独立性假设。不适当的独立性假设阻碍了基于bert的模型学习目标token之间的依赖关系,从而导致了不连贯的问题。为些,提出了一种名为Dynamic Connected Networks(DCN)的新架构,它通过拼音增强候选生成器生成候选中文字符然后利用基于注意力的网络对相邻中文字符之间的依赖关系进行建模。在数据集SIGHAN 2013,SIGHAN 2014以及SIGHAN 2015 达到了state-of-the-art。原创 2024-11-08 16:16:19 · 426 阅读 · 0 评论 -
Spelling Error Correction with Soft-Masked BERT(ACL2020)
目前该任务的最先进的方法是基于BERT(语言表示模型)从句子的每个位置的候选字符列表中选择一个字符进行纠正(包括非纠正)。然而,作者认为该方法的准确性可能不是最优的,因为BERT没有足够的能力来检测每个位置是否存在错误,这显然是由于使用掩语言建模(mask language model)的预训练方式(在BERT的预训练中,只有15%的字符被屏蔽用于预测,导致学习的模型不具备足够的错误检测能力)。原创 2024-11-07 12:25:28 · 642 阅读 · 0 评论 -
SpellBERT: A Lightweight Pretrained Model for Chinese Spelling Check(EMNLP2021)
作者认为许多模型利用预定义的混淆集来学习正确字符与其视觉上相似或语音上相似的误用字符之间的映射,但映射可能是域外的。为此,我们提出了SpellBERT,一个基于图的额外特征和独立于混淆集的预训练模型。为了明确地捕捉这两种错误模式(音似和形似,如下图),我们使用了一个图神经网络来引入词根和拼音信息作为视觉和语音特征。为了更好地将这些特征与字符表示融合,我们设计了类似于预训练任务的掩码语言模型(masked language model)。SpellBert只有Bert一半大小。原创 2024-11-06 20:43:52 · 839 阅读 · 0 评论 -
Global Attention Decoder for Chinese Spelling Error Correction(ACL2021)
作者认为现有的纠错方法大多是基于局部上下文信息进行纠错,没有考虑句子中错词的影响。将注意力放在错误上下文信息上可能会误导并降低CSC(Chinese Spelling Correction)的整体性能。为此,提出了一种用于CSC的全局注意力解码器(GAD)方法。具体而言,该方法学习了潜在正确输入字符与潜在错误候选字符之间的全局关系。获得丰富的全局上下文信息,减轻了局部错误上下文信息的影响。原创 2024-11-06 20:43:37 · 762 阅读 · 0 评论 -
PHMOSpell: Phonological and Morphological Knowledge Guided Chinese Spelling Check(ACL2021)
作者认为目前大多数中文拼写错误都属于音似或形似造成的错误,如上图。但以往的方法很少利用中文字符的语音和形态知识,或严重依赖外部资源来建模字符的相似度。为此,文中提出了一种端到端可训练的模型叫PHMOSpell,其提升了CSC(Chinese Spelling Check)利用多模态信息的性能。具体而言,我们分别从音频和视觉模式中获得汉字的拼音和字形表示,并通过精心设计的自适应门控机制将其集成到预训练的语言模型中。方法通过自适应门控机制,在预训练模型中融合了拼音和字形特征。原创 2024-11-04 09:00:20 · 478 阅读 · 0 评论 -
An Error-Guided Correction Model for Chinese Spelling Error Correction(EMNLP2022)
模型需要避免过度校正,并将正确的token与语音和视觉上相似的token区分开来。本文提出了一种错误引导(error-guided)纠错模型(EGCM),以提高汉语拼写纠错能力。利用BERT的强大功能,提出了一种新的零样本错误检测方法来进行初步检测,引导我们的模型更多地关注编码过程中可能出现的错误token,避免在生成过程中修改正确的token。此外,引入了一个新的损失函数来整合错误混淆集,使我们的模型能够区分容易被误用的token。再者,此模型支持高效并行解码,以满足实际应用需求。原创 2024-11-03 09:18:49 · 755 阅读 · 0 评论 -
Are Pre-trained Language Models Useful for Model Ensemble in Chinese Grammatical Error Correction?(A
模型集成被广泛用于语法错误纠正(GEC),用于提高了模型的性能。假设基于预训练语言模型(PLMs)计算的困惑度(PPL)的模型集成将有利于GEC系统。为此,我们探索了几种基于具有四个复杂单一模型的强预训练语言模型集成策略。然而,在基于预训练语言模型的集成之后,性能并没有提高,甚至会变得更差。这个令人惊讶的结果让我们对数据进行了详细的分析,并提出了一些关于GEC的见解。在测试数据中,正确句子的人为参考远远不够,正确句子与惯用句子之间的差距值得我们关注。原创 2024-11-01 07:48:54 · 499 阅读 · 0 评论 -
基于 DCT 的图像滤波
滤波处理:根据需求选择合适的滤波器,如低通滤波器或其他去噪滤波器,在频域对DCT系数矩阵进行滤波操作,去除高频噪声。实现方式:最后,我们需要确定DCT算法的实现方式,如编写Python代码来实现图像的DCT变换和滤波,或者使用现有的图像处理软件等。DCT算法的应用:我们需要了解DCT算法的原理和实现方式,包括如何将图像从空间域转换到频域,以及如何在频域对图像进行滤波等处理。图像去噪的目标:我们需要明确对图像进行去噪的目标是什么,例如消除图像中的高频噪声、提高图像的清晰度等。原创 2024-05-29 16:00:09 · 1293 阅读 · 0 评论 -
AdaBoost 乳腺癌数据挖掘
同时,AdaBoost算法还具有很强的鲁棒性,即使某个弱分类器出现较大的错误率,也不会对整个集合的分类性能产生太大的影响。评估集成学习模型的多样性是非常重要的,因为模型的多样性可以增强其对数据的适应能力,从而降低过拟合的风险。增强了鲁棒性:集成学习模型可以降低对单个分类器的要求,即使某个分类器出现较大的错误率,也不会对整个模型的分类性能产生太大的影响。4. 观察模型的预测结果:对于测试集中的每个样本,观察模型的所有弱分类器的预测结果,如果预测结果相似,则说明模型缺乏多样性。原创 2024-05-29 15:37:27 · 1575 阅读 · 0 评论
分享