paper list

最新推荐文章于 2025-03-10 13:39:27 发布

linxid

最新推荐文章于 2025-03-10 13:39:27 发布

阅读量1.4k

点赞数 4

分类专栏：人工智能自然语言处理算法文章标签： paper nlp 文本分类深度学习机器学习

本文链接：https://blog.youkuaiyun.com/linxid/article/details/86600630

版权

人工智能同时被 3 个专栏收录

38 篇文章

订阅专栏

自然语言处理

4 篇文章

订阅专栏

算法

4 篇文章

订阅专栏

记录看过的论文，日常更新…

论文笔记：

论文	时间	类型	code
《A Survey on Deep Learning for Named Entity Recognition》	2018	NER

2019年2月：

论文	时间	类型	code
《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》	2013	声音分类
《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》	2011	声音分类
《Learning to Recognize Musical Genre from Audio》	2018	声音分类	Github

2019年1月：

论文	时间	类型	code
《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》	2018	声音分类	Github
《Music Genre Classification using Machine Learning Techniques》	2018	声音分类	Github
《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》	2017	声音分类
《pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis》	2015	音频分析	Github
《Exploring different approaches for music genre classification》	2012	声音分类
《Dynamic Meta-Embeddings for Improved Sentence Representations》	2018	词向量
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》	2018	词向量
《Is preprocessing of text really worth your time for toxic comment classification?》	2018	文本分类	Github
《Detection of Harassment on Web 2.0》	2009	文本分类

2018年12月

论文	时间	类型
《Dynamic Meta-Embeddings for Improved Sentence Representations》	2018	词向量
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》		词向量
《SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News》		情感分析
《Cyclical Learning Rates for Training Neural Networks》		基础框架
《基于多特征融合的混合神经网络模型讽刺语用判别》		情感分析
《Stop Word Lists in Free Open-source Software Packages》	2018	NLP

《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》

论文对GTZAN数据集进行了详细的分析，包括他的一些问题，标签错误等等。以及使用这个数据集的论文情况，对这些论文的指标进行了比较。

《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》

论文基于特征对音乐风格进行分类，提取传统常见的音乐特征，MFCC，过零点，频谱其他特征等等。提取一种新的份额里的算法modified immune classifier（MIC），实验结果是该算法明显优于其他方法，但有待考证。

《Learning to Recognize Musical Genre from Audio》：

举办方开放FMA数据集，举办一场AI比赛，对比赛结果和数据集进行了总结和介绍。

《Is preprocessing of text really worth your time for toxic comment classification?》

论文基于Kaggle toxic比赛，分析数据预处理对性能提升的作用。并不是所有的数据预处理都是有效的，比如去除停用词，去除标点符号，很多时候反作用。论文中给出了详细的比较，多个算法，20中基本数据预处理做法以及这20中预处理方法的组合。数据预处理并不是做的越多越好，直觉上能带来效果的做法并没有带来提升。

《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》

论文利用CNN结构对大规模声音数据进行分类，首次将Inception和ResNet结构用于声音。论文将声音频谱作为图像处理，应用多种CV中传统的NN结构，并比较了各个结构的时间的性能。属于基于实验性的论文，并未有算法和结构上的创新。各个结构的比较如下：

《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》

论文给出一个无监督声音学习表示的框架auDeep，通过基于seq2seq的自编码器来实现。如下是框架的处理流程。

实现原理：
将声音频谱输入到多层编码RNN中，然后通过一个全连接网络，输出是另一个RNN解码器，用解码器来重构输入声音频谱。比较输入和输出的RMSE来进行优化。训练完成后的全连接层参数作为输入声音序列的表示。

《Music Genre Classification using Machine Learning Techniques》

针对Audio Set数据集，论文使用两种主要的方法进行训练然后分类，对两个模型得到的结果进行集成得到最终的结果。一种是基于频谱的深度学习方法（CNN），另一种基于传统做法，手工构造频域和时域特征，然后构建分类器进行训练，并且求出不同特征的重要性。
文章所用到的数据集：Audio Set，从YouTube中210万视频中声音，每一条10s。声音数据被划分为527类，包括乐器，演讲，车辆声音，动物声音等等。关于音乐风格分类如下：

为了得到音频的两个预处理操作：

下载视频，提取mp4格式的声音；
将mp4格式的文件划分成wav的文件
声音文件预处理框架：librosa

时域特征：

中心距（Central moments）：信号幅度的平均值，标准差，偏度和峰度；
Zero Crossing Rate(ZCR)：过零点的均值和标准差；
RMSE：类似信号的能量 $\sum_{n=1}^N{|x(n)|^2}$
Tempo：表征声音的快慢，类似每分钟的节拍；

频域特征：

Mel-Frequency Cepstral Coefficients (MFCC)
Chroma Features
Spectral Centroid
Spectral Band-width
Spectral Contrast
Spectral Roll-off

不同算法多个指标的比较：

在这里插入图片描述

2018年12月

《Dynamic Meta-Embeddings for Improved Sentence Representations》:

论文主要提到了，我们如何更好的利用Embedding。论文最后得出的结论是令人非常惊讶的。
正常情况下，我们一般用一个Embedding来训练模型。我们知道，将多个Embedding并联，也就是Concat能有效提升性能。论文最后得出的结果是将多个Embedding带权相加能得到更好的结果。

Embedding的使用方式：

只用一个Embedding；
Embedding并联， $wCATj = [w_{1j}; w_{2j} ;...w_{nj}]$ ;
DME(Dynamic Meta Embedding):对多个Embedding进行带权相加，权重由self-attention学得。
Un-Weight DME:不带权重，也就是Embedding直接相加；
CDME(contextualized DME):基于文章内容；

从多项实验结果来看，性能表现：CDME > Unweighted ME > Weighted ME;
DME不仅能提高性能，而且能观察NN的权重。

此为对情感分析数据集SST的训练结果，从实验结果不难看出DME的提升。但是，带权求和反而不如Un_Weight DME，所以实际操作中建议考虑不带权直接相加。

Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings

论文主要提出averaging meta-embedding做法，并说明为什么averaging能够媲美复杂的meta-embedding算法。文章对比了将两个embedding做concat，averaging的结果要好于concat。

SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News

细粒度情感分析在金融领域的应用，分析该项任务的意义和必要性。阐述数据集的建立过程，以及分类任务。对于不同的几个赛题，比较参赛队员所使用的模型，包括ML和DL等多种模型。

基于多特征融合的混合神经网络模型讽刺语用判别

对讽刺语，进行判别。判别一句话是讽刺还是反讽，针对的是中文语料。讨论传统模型和DL模型。传统算法，利用TfIDF和n-gram作为统计特征，然后通过一个分类器。最优结果是采用神经网络混合模型。CNN和LSTM并联。

CNN和LSTM的参数：

Stop Word Lists in Free Open-source Software Packages(2018):

论文中主要提到了现在常用的停用词。有很多开源库提供停用词，停用词一般是指不明显影响文本意思的词。但是现在的很多停用词质量参差不齐，并且存在明显的问题，而且在实际工作中（eg.文本分类）中并没有起到明显的作用，提升性能等等。文章对停用词库的建立提出几个意见。

Cyclical Learning Rates for Training Neural Networks(2017):

论文提出一种新的设置全局学习率的方法，CLR（Cyclical Learning Rate,循环学习率）。能够避免寻找最优学习率这个过程，在一个合理的区间内变化而不是单调下降。不像Adative Learning Rate，CLR不需要额外的计算。

什么是CLR：
[1]中对CLR进行了详细的讲解，主要意思也就是在(base_lr,max_lr)之间学习率循环波动，波动函数和iteration、stepsize相关。一个cycle（周期）也就是学习率从最低到最高再到最低的iteration数量。

CLR的优势：

能够更快的跳出鞍点；
最优的LR肯定落在最小值和最大值之间。我们确实在迭代过程中使用了最好的LR

keras实现CLR：

clr = CyclicLR(base_lr=0.001, max_lr=0.006,step_size=2000.)
model.fit(X_train, Y_train, callbacks=[clr])

如何确定max_lr和base_lr:
如[1]中所述：先跑几个epoch，并且让学习率线性增加，观察准确率的变化，从中选出合适的base 和max lr。一般差一个数量级

CLR变体：
详细内容参考[2]，其实就是max_lr不断衰减的过程，不同变体衰减的方法有所不同。

triangular2：衰减系数 $1 / 2$
每个周期后max_lr衰减为上一个周期的一半

clr = CyclicLR(base_lr=0.001,max_lr=0.006,step_size=2000.,mode='triangular2')
model.fit(X_train, Y_train, callbacks=[clr])

exp_range：衰减系数 $gamma^i$
指数衰减

clr = CyclicLR(base_lr=0.001, max_lr=0.006,
                    step_size=2000., mode='exp_range',
                    gamma=0.99994)
model.fit(X_train, Y_train, callbacks=[clr])

[1]https://github.com/bckenstler/CLR
[2]https://blog.youkuaiyun.com/weixin_43896398/article/details/84762886
[3]https://www.kaggle.com/hireme/fun-api-keras-f1-metric-cyclical-learning-rate/code