
文献阅读笔记
文章平均质量分 77
我是小蔡呀~~~
天道酬勤
展开
-
【论文精度】ViT(AN IMAGE IS WORTH 16*16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)
虽然transformer已经成为nlp领域的一个标准,但用transformer做cv方面的任务还是很有限的。在视觉中,注意力机制要么是和cnn结合一起用,要么是保持整体结构不变的情况下替换一些cnn组件。本文证明了对cnn的依赖是没有必要的,在一个图像分类任务中,将一个单纯的transformer直接应用在图像块中也是可以表现的非常好。尤其是在大规模数据上作预训练后迁移到中小型数据集上时,ViT能获得与SOTA CNN相媲美的结果。原创 2023-05-30 18:56:12 · 348 阅读 · 1 评论 -
【论文精度(李沐老师)】Deep Residual Learning for Image Recognition
残差网络原创 2023-04-25 21:07:37 · 989 阅读 · 0 评论 -
【论文精度(李沐老师)】Generative Adversarial Nets
GAN 生成对抗网络原创 2023-04-01 19:55:04 · 879 阅读 · 3 评论 -
【论文精读(李沐老师)】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
我们介绍了一个新的语言表示模型BERT,这个名字来自于双向的transformer编码器表示。和最近语言表示的模型不同(ELMo、GPT),BERT是被训练深的双向表示,用的是没有标号的数据,然后再连接左右的上下文信息。因为我们的设计,导致我们训练好的BERT只需要额外的加一个输出层,就可以使得在很多nlp的任务上得到一个不错的结果,比如问答、语言推理,且不需要对任务做一些特别的架构上的改动。BERT在概念上更加简单,在实验上更加好。他在11个NLP的任务上得到了新的最好的结果。。原创 2023-04-10 20:35:09 · 556 阅读 · 2 评论 -
【论文精读(李沐老师)】Attention Is All You Need
transformer原创 2023-03-30 14:01:35 · 845 阅读 · 0 评论 -
基于循环神经网络的藏语语音识别声学模型——阅读笔记
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学建模输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。...原创 2022-07-10 11:00:46 · 1326 阅读 · 0 评论 -
基于瓶颈特征的藏语拉萨话连续语音识别研究——阅读笔记
基于从深度神经网络提取的 瓶颈特征 具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络 后验特征 和单瓶颈特征更好的识别表现。......原创 2022-07-03 16:36:58 · 967 阅读 · 0 评论 -
语音识别研究综述——阅读笔记4(总结与展望)
语音识别研究综述 (总结与展望)原创 2022-06-18 11:35:31 · 872 阅读 · 0 评论 -
语音识别研究综述——阅读笔记3(端到端语音识别、语音识别的难度与热点)
端到端语音识别语音识别的难度与热点原创 2022-06-18 11:15:27 · 1106 阅读 · 0 评论 -
语音识别研究综述——阅读笔记2
语音识别概念语音识别基本原理声学模型 语言模型原创 2022-06-17 19:28:35 · 571 阅读 · 0 评论 -
语音识别研究综述——阅读笔记1
摘要:语音识别使声音变得“可读”, 让计算机能够“听懂”人类的语言并做出反应, 是人工智能实现人机交互的关键技术之一。本文介绍了语音识别的发展历程, 阐述了语音识别的原理概念与基础框架,分析了语音识别领域的研究热点和难点, 最后,对语音识别技术进行了总结并就其未来研究进行了展望。.....................原创 2022-06-13 18:08:12 · 684 阅读 · 0 评论