NLP
文章平均质量分 73
NLP
StellaLiu萤窗小语
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文NER-基于网格LSTM的中文命名实体识别Chinese NER Using Lattice LSTM
基于网格LSTM的中文命名实体识别细节一:融合字符与词级别特征LatticeLSTM细节二:从LSTM到LatticeLSTMBasicLSTMLatticeLSTM字粒度输入词粒度输入字词融入实验本文idea提出原因中文命名实体识别的实体边界划分特别难。基于字符级别:无分词错误,缺少词的边界信息,利用不了已有词典基于词级别:有分词错误,因为只能有一种分词深度学习一定程度上解决了对词典的依赖如何利用现有词典,引入所有可能词的边界信息?研究成果:>动态引入所有可能的词信息>克服了基于词模型原创 2021-09-16 16:37:14 · 900 阅读 · 0 评论 -
解决样本不均衡问题
label_id_level_1 = int(example.label_level_1) label_id_level_2 = int(example.label_level_2) samp_weight = math.sqrt(1 /label2freq_level_2[label_list_level_2[label_id_level_2]]) sample_weights.append(samp_weight)Pytorch中使用weightedRandomSampler进行样本出现概率.原创 2021-08-31 18:37:44 · 395 阅读 · 0 评论 -
自然语言处理:基于预训练模型的方法(一)
自然语言处理:基于预训练模型的方法1.2 自然语言处理的难点1.3 自然语言处理任务体系1.2 自然语言处理的难点1.2.1 抽象性语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们头脑中的复杂概念,如“车”表示各种交通工具——汽车、火车、自行车等,它们都具有共同的属性,有轮子、能载人或物等。1.2.2 组合性每种语言的基本符号单元都是有限的,如英文仅有26个字母,中国国家标准GB2312《信息交换用汉字编码字符集·基本集》共收录6,763个汉字,即便是常用的单词,英文和中文也不过原创 2021-08-16 16:53:39 · 1111 阅读 · 0 评论 -
自然语言处理中的预训练模型
这里写目录标题预训练模型分类体系典型模型BertSpanBertStructBertXLNetT5GPT-3预训练模型的扩展Knowledge-Enriched PTMsMultilingual and Language-Specific PTMsCross-Lingual Language Understanding(XLU)Cross-Lingual Language Generation(XLG)Language-Specific PTMsVL-BertVideoBert模型压缩迁移到下游任务选择适当原创 2021-08-16 15:45:08 · 1416 阅读 · 0 评论
分享