
【自然语言处理】
文章平均质量分 94
Yang SiCheng
这个作者很懒,什么都没留下…
展开
-
【NLP】14 ERNIE应用在语义匹配NLP任务——Paddlehub安装、BERT推广的使用、与Simnet_bow与Word2Vec效果比较
ernie语义匹配1. STS-B 数据集2. Word2Vec 效果3. ERNIE 基于paddlehub的语义匹配0-1预测3.1 数据3.2 paddlehub4. ERNIE 简单服务器调用5. ERNIE 预训练+微调1. STS-B 数据集Semantic Textual Similarity Benchmark: 这是一个类似回归的问题——给出一对句子, 使用1~5(0-5?)的评分评价两者在语义上的相似程度,来自比赛的Task 1: Semantic Textual Similarit原创 2021-04-03 22:40:27 · 1567 阅读 · 3 评论 -
【NLP】13 ERNIE应用在情绪分类NLP任务——ERNIE安装、中文BERT的使用
BERT1. ERNIE一些链接百度ERNIE的官方github全词覆盖的BERT模型,谷歌最强NLP模型BERT官方中文版一个新闻概述1. ERNIE原创 2021-04-01 18:28:49 · 3126 阅读 · 2 评论 -
【NLP】12 RNN神经网络应用在情绪分类NLP任务——LSTM(hidden, output)、Attention、Transform Encoder
LSTM训练集上每5000个句子打印一次结果,在验证集和测试集的Loss和Accuracy分别为以下:训练集句子总数:579947验证集句子总数:835633测试集句子总数:6582cuda(0.6757109771410998, 0.5973040848751986) (0.6478104839284357, 0.6675281240498632)(4.683135150947266, 0.758642873125979) (5.7317852833308, 0.69352386743691原创 2021-03-31 20:38:03 · 728 阅读 · 0 评论 -
【NLP】11其它句向量生成方法——Tf-idf模型、腾讯AI实验室汉字词句嵌入语料库求平均生成句向量
@TOCLinux服务器复制后不能windows粘贴?远程桌面无法复制粘贴传输文件解决办法:重启rdpclip.exe进程,Linux 查询进程:ps -ef |grep rdpclipfrom gensim.models import TfidfModelfrom gensim.corpora import Dictionaryimport logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)原创 2021-03-27 11:05:18 · 797 阅读 · 14 评论 -
【NLP】10其它词、句向量生成方法——腾讯AI实验室汉字词句嵌入语料库与gensim Doc2Vec
其它word2vec效果测试对比1. 腾讯AI实验室汉字词句嵌入语料库2. Doc2Vec2.1 介绍2.2 准备训练和测试数据1. 腾讯AI实验室汉字词句嵌入语料库网站:自然语言处理(NLP)研究腾讯AI实验室汉字词句嵌入语料库,语料库为200万个矢量词表示,也就是嵌入,可表示超过800万个中文单词和短语,这些单词和短语已预先训练超过300亿个单词下载后得到名为’Tencent_AILab_ChineseEmbedding.tar.gz’的文件运行程序报错:MemoryError: Un原创 2021-03-26 16:15:43 · 2288 阅读 · 2 评论 -
【NLP】9文本匹配度测量结果D-S融合——度量相关性、绘制图像
@TOC1. D-S理论应用思路采样周期为20s,计算教师授课内容与百度百科、课本教材的相关程度的基本概率赋值,相关程度的定义可参考之前文章中关于Pearson相关性的判据:rCorrelation Criteria0No correlation0-0.5Weak correlation0.5-0.8Moderate correlation0.8-1Strong correlation1Perfect correlation每分钟计算一原创 2021-02-27 13:23:21 · 416 阅读 · 0 评论 -
【NLP】8中文语句情感分析实战——酒店、微博、外卖、网购等九个数据集处理、SVM和SGD训练
情感分析数据集一、情感分析数据集处理1. NLPCC 2014会议技术评测测试数据与答案2. 酒店评论数据ChnSentiCorp_htl_all3. 外卖平台用户评价waimai_10k4. 线上购物评论数据online_shopping_10_cats5. 新浪微博情感标注weibo_senti_100k6. 新浪微博情感标注simplifyweibo_4_moods7. 电影评论数据集dmsc_v28. 餐馆用户评论数据yf_dianping9. 商品评论数据yf_amazon10. 文件合并二、句子原创 2021-02-22 14:01:04 · 4608 阅读 · 0 评论 -
【NLP】7评价word2vec模型与生成句子向量——中文相似词表、类比词表、逆文档频率对所有嵌词向量的平均值加权
这里写自定义目录标题1. 中文相似词表2. 中文类比词表3. 汉语情绪分析4. 生成句子向量小结(注:pdf格式文献复制粘贴翻译时,会有换行的问题,推荐一款名为’copytranslator’的软件,下载在此)如何评价词向量可参考词向量:如何评价词向量的好坏1. 中文相似词表希望找到类似英文中WordSim-353和SimLex-999的数据集对中文词向量模型的准确度和相关性进行测试,参考此文章,其中引用此数据集,相关内容:Wordsim-240 (original name: words-24原创 2021-02-19 22:03:58 · 1184 阅读 · 1 评论 -
【NLP】6 gensim word2vec基于中文语料库实战——中文wiki百科、清华大学自然语言处理实验室数据集、搜狗全网新闻数据集
@[TOC](gensim word2vec自己寻找语料库非gensim data实战)# 1. 数据下载英文语料数据来自[英语国家语料库](https://ota.bodleian.ox.ac.uk/repository/xmlui/handle/20.500.12024/2554)(British National Corpus, 简称BNC)(538MB, 样例数据22MB)和[美国国家语料库](http://www.anc.org/data/oanc/download/)(318MB),中文语原创 2021-02-16 23:15:47 · 4499 阅读 · 0 评论 -
【NLP】5计数词向量底层代码编写和gensim word2vec库入门——斯坦福大学CS224n第一次课作业代码复现
@[TOC](gensim word2vec库入门)这是斯坦福大学CS224n课程的[第一次课作业](http://web.stanford.edu/class/cs224n/assignments/a1.zip),下载之后打开其中的jupyter notebook:``` jupyter notebook exploring_word_vectors.ipynb```# 背景:词向量词向量经常被用作下游NLP任务的基础组件,例如问题回答、文本生成、翻译等,因此建立一些关于其优缺点的直觉是很重原创 2021-02-13 14:12:04 · 1197 阅读 · 5 评论 -
【NLP】4 gensim word2vec库入门——官方手册embeddings和KeyedVectors
@[TOC](gensim word2vec库官方手册)# 1. Word2vec embeddingsGensim Word2vec embeddings [官方文档](https://radimrehurek.com/gensim/models/word2vec.html)## 1.1 简介该模块使用高度优化的C语言例程、数据流和Pythonic接口实现了word2vec系列算法。word2vec算法包括skip-gram和CBOW模型,使用层次softmax或负采样:[Tomas M原创 2021-02-12 23:14:13 · 7407 阅读 · 3 评论 -
【NLP】3 word2vec库与基于搜狗全网新闻数据集实例
这里写自定义目录标题1. 语料库获取2. 读取dat文件中有效内容、生成txt文件3. 分词4. 构建词向量思路参考word2vec构建中文词向量,原文是Linux环境,这里是win101. 语料库获取在搜狗实验室注册并下载全网新闻数据(SogouCA),完整版共711MB,格式为tar.gz格式,格式如下所示:解压之后得到一个名为"news_tensite_xml.dat"的文件,解压后1.43G,太大了记事本打不开:下载样例数据集"news_tensite_xml.smarty.dat"看原创 2021-02-11 10:45:45 · 2579 阅读 · 6 评论 -
【NLP】2安装word2vec库与基于text8数据集实例
2.2参考word2vec Jupyter notebook,从以下网址下载text8.zip这个数据集,长这个样子:这就是语料库了,看起来感觉杂乱无章的样子,还是先跟着做下去,代码:原创 2021-02-09 16:54:33 · 4148 阅读 · 3 评论 -
【NLP】1安装gensim库与斯坦福大学CS224n第一次课代码复现
Gensim word vector visualization1. 安装gensim库2. word2vec实例小结1. 安装gensim库打开命令行,输入:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim安装好了可以在默认安装路径下(本人为Anaconda3)找到这两个包:2. word2vec实例根据之前斯坦福大学深度学习自然语言处理课程,从以下链接可以下载Gensim word vector visuali原创 2021-02-09 13:11:23 · 675 阅读 · 2 评论 -
【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis摘要1. 介绍2. 相关工作2.1 多模态情感分析2.2 Transformer and BERT2.3 多任务学习3. 方法论3.1 任务设定文献信息:标题:用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析作者:Wenmeng Yu, Hua Xu, Z原创 2021-04-17 21:15:11 · 2248 阅读 · 0 评论 -
【NLP】文献翻译4——CH-SIMS:中文多模态情感分析数据集与细粒度的模态注释
CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality摘要1. 介绍2. 相关工作2.1 多模态数据集2.2 多模态情感分析2.3 多任务学习3. CH-SIMS 数据集3.1 数据获取3.2 标注3.3 特征提取4. 多模式多任务学习框架4.1 单模态子网4.2 特征融合网络4.3 优化目标5. 实验5.1 基准5.2 实验的细节5.3 结果和讨论5.3.1 与原创 2021-04-17 14:41:56 · 14404 阅读 · 14 评论 -
【NLP】文献翻译3——基于卷积神经网络和词嵌入的一种新型句子相似性模型
A novel sentence similarity model with word embedding based on convolutional neural network摘要1. 简介2. 相关工作文献信息:标题:基于卷积神经网络和词嵌入的一种新型句子相似性模型作者:Haipeng Yao1 Huiwen Liu1 Peiying Zhang1,2时间:18 January 2018机构:1北京邮电大学网络与交换技术国家重点实验室,北京,中国 2中国石油大学计算机与通信工程学院,青原创 2021-02-08 11:35:53 · 1147 阅读 · 2 评论 -
【NLP】文献翻译2——英语单词语义相似性的Word2Vec模型分析
Word2Vec Model Analysis for Semantic Similarities in English Words摘要1. 简介2. 相关工作3. 方法论3.1 语义相似性3.2 系统概述3.3 词嵌入3.4 数据集3.5 预处理文献信息:标题:英语单词语义相似性的Word2Vec模型分析作者:Derry Jatnika, Moch Arif Bijaksana, Arie Ardiyanti Suryani机构:School of Computing, Telkom Univer原创 2021-02-06 10:52:32 · 3188 阅读 · 0 评论 -
【NLP】文献翻译1——基于结构和词嵌入的文本相似性测量方法
Measuring text similarity based on structure and word embedding摘要1. 简介2. 相关工作3. 句子相似性3.1 基于结构的相似性3.1.1 关系提取3.1.2 基于图的相似性3.2 基于词嵌入的相似性文献信息:标题:基于结构和词语嵌入的文本相似性测量方法作者:Farouk, Mamdouh(14篇文献)机构:Assiut University(艾斯尤特大学,埃及)期刊简介:Cognitive Systems Research(认知原创 2021-02-05 11:55:03 · 1017 阅读 · 0 评论