记录看过的论文,日常更新…
论文笔记:
论文 | 时间 | 类型 | code |
---|---|---|---|
《A Survey on Deep Learning for Named Entity Recognition》 | 2018 | NER |
2019年2月:
论文 | 时间 | 类型 | code |
---|---|---|---|
《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》 | 2013 | 声音分类 | |
《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》 | 2011 | 声音分类 | |
《Learning to Recognize Musical Genre from Audio》 | 2018 | 声音分类 | Github |
2019年1月:
论文 | 时间 | 类型 | code |
---|---|---|---|
《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》 | 2018 | 声音分类 | Github |
《Music Genre Classification using Machine Learning Techniques》 | 2018 | 声音分类 | Github |
《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》 | 2017 | 声音分类 | |
《pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis》 | 2015 | 音频分析 | Github |
《Exploring different approaches for music genre classification》 | 2012 | 声音分类 | |
《Dynamic Meta-Embeddings for Improved Sentence Representations》 | 2018 | 词向量 | |
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》 | 2018 | 词向量 | |
《Is preprocessing of text really worth your time for toxic comment classification?》 | 2018 | 文本分类 | Github |
《Detection of Harassment on Web 2.0》 | 2009 | 文本分类 |
2018年12月
论文 | 时间 | 类型 | code |
---|---|---|---|
《Dynamic Meta-Embeddings for Improved Sentence Representations》 | 2018 | 词向量 | |
《Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings》 | 词向量 | ||
《SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News》 | 情感分析 | ||
《Cyclical Learning Rates for Training Neural Networks》 | 基础框架 | ||
《基于多特征融合的混合神经网络模型讽刺语用判别》 | 情感分析 | ||
《Stop Word Lists in Free Open-source Software Packages》 | 2018 | NLP |
《The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use》
论文对GTZAN数据集进行了详细的分析,包括他的一些问题,标签错误等等。以及使用这个数据集的论文情况,对这些论文的指标进行了比较。
《MODIFIED AIS-BASED CLASSIFIER FOR MUSIC GENRE CLASSIFICATION》
论文基于特征对音乐风格进行分类,提取传统常见的音乐特征,MFCC,过零点,频谱其他特征等等。提取一种新的份额里的算法modified immune classifier(MIC),实验结果是该算法明显优于其他方法,但有待考证。
《Learning to Recognize Musical Genre from Audio》:
举办方开放FMA数据集,举办一场AI比赛,对比赛结果和数据集进行了总结和介绍。
《Is preprocessing of text really worth your time for toxic comment classification?》
论文基于Kaggle toxic比赛,分析数据预处理对性能提升的作用。并不是所有的数据预处理都是有效的,比如去除停用词,去除标点符号,很多时候反作用。论文中给出了详细的比较,多个算法,20中基本数据预处理做法以及这20中预处理方法的组合。数据预处理并不是做的越多越好,直觉上能带来效果的做法并没有带来提升。
《CNN ARCHITECTURES FOR LARGE-SCALE AUDIO CLASSIFICATION》
论文利用CNN结构对大规模声音数据进行分类,首次将Inception和ResNet结构用于声音。论文将声音频谱作为图像处理,应用多种CV中传统的NN结构,并比较了各个结构的时间的性能。属于基于实验性的论文,并未有算法和结构上的创新。各个结构的比较如下:

《auDeep: Unsupervised Learning of Representations from Audio with Deep Recurrent Neural Networks》
论文给出一个无监督声音学习表示的框架auDeep,通过基于seq2seq的自编码器来实现。如下是框架的处理流程。

实现原理:
将声音频谱输入到多层编码RNN中,然后通过一个全连接网络,输出是另一个RNN解码器,用解码器来重构输入声音频谱。比较输入和输出的RMSE来进行优化。训练完成后的全连接层参数作为输入声音序列的表示。
《Music Genre Classification using Machine Learning Techniques》
针对Audio Set数据集,论文使用两种主要的方法进行训练然后分类,对两个模型得到的结果进行集成得到最终的结果。一种是基于频谱的深度学习方法(CNN),另一种基于传统做法,手工构造频域和时域特征,然后构建分类器进行训练,并且求出不同特征的重要性。
文章所用到的数据集:Audio Set,从YouTube中210万视频中声音,每一条10s。声音数据被划分为527类,包括乐器,演讲,车辆声音,动物声音等等。关于音乐风格分类如下:

为了得到音频的两个预处理操作:
- 下载视频,提取mp4格式的声音;
- 将mp4格式的文件划分成wav的文件
声音文件预处理框架:librosa
时域特征:
- 中心距(Central moments):信号幅度的平均值,标准差,偏度和峰度;
- Zero Crossing Rate(ZCR):过零点的均值和标准差;
- RMSE:类似信号的能量 ∑ n = 1 N ∣ x ( n ) ∣ 2 \sum_{n=1}^N{|x(n)|^2} ∑n=1N∣x(n)∣2
- Tempo:表征声音的快慢,类似每分钟的节拍;
频域特征:
- Mel-Frequency Cepstral Coefficients (MFCC)
- Chroma Features
- Spectral Centroid
- Spectral Band-width
- Spectral Contrast
- Spectral Roll-off
不同算法多个指标的比较:
2018年12月
《Dynamic Meta-Embeddings for Improved Sentence Representations》:
论文主要提到了,我们如何更好的利用Embedding。论文最后得出的结论是令人非常惊讶的。
正常情况下,我们一般用一个Embedding来训练模型。我们知道,将多个Embedding并联,也就是Concat能有效提升性能。论文最后得出的结果是将多个Embedding带权相加能得到更好的结果。
Embedding的使用方式:
- 只用一个Embedding;
- Embedding并联, w C A T j = [ w 1 j ; w 2 j ; . . . w n j ] wCATj = [w_{1j}; w_{2j} ;...w_{nj}] wCATj=[w1j;w2j;...wnj];
- DME(Dynamic Meta Embedding):对多个Embedding进行带权相加,权重由self-attention学得。
- Un-Weight DME:不带权重,也就是Embedding直接相加;
- CDME(contextualized DME):基于文章内容;
从多项实验结果来看,性能表现:CDME > Unweighted ME > Weighted ME;
DME不仅能提高性能,而且能观察NN的权重。

此为对情感分析数据集SST的训练结果,从实验结果不难看出DME的提升。但是,带权求和反而不如Un_Weight DME,所以实际操作中建议考虑不带权直接相加。
Frustratingly Easy Meta-Embedding – Computing Meta-Embeddings by Averaging Source Word Embeddings
论文主要提出averaging meta-embedding做法,并说明为什么averaging能够媲美复杂的meta-embedding算法。文章对比了将两个embedding做concat,averaging的结果要好于concat。
SemEval-2017 Task 5: Fine-Grained Sentiment Analysis on Financial Microblogs and News
细粒度情感分析在金融领域的应用,分析该项任务的意义和必要性。阐述数据集的建立过程,以及分类任务。对于不同的几个赛题,比较参赛队员所使用的模型,包括ML和DL等多种模型。
基于多特征融合的混合神经网络模型讽刺语用判别
对讽刺语,进行判别。判别一句话是讽刺还是反讽,针对的是中文语料。讨论传统模型和DL模型。传统算法,利用TfIDF和n-gram作为统计特征,然后通过一个分类器。最优结果是采用神经网络混合模型。CNN和LSTM并联。

CNN和LSTM的参数:
Stop Word Lists in Free Open-source Software Packages(2018):
论文中主要提到了现在常用的停用词。有很多开源库提供停用词,停用词一般是指不明显影响文本意思的词。但是现在的很多停用词质量参差不齐,并且存在明显的问题,而且在实际工作中(eg.文本分类)中并没有起到明显的作用,提升性能等等。文章对停用词库的建立提出几个意见。
Cyclical Learning Rates for Training Neural Networks(2017):
论文提出一种新的设置全局学习率的方法,CLR(Cyclical Learning Rate,循环学习率)。能够避免寻找最优学习率这个过程,在一个合理的区间内变化而不是单调下降。不像Adative Learning Rate,CLR不需要额外的计算。
什么是CLR:
[1]中对CLR进行了详细的讲解,主要意思也就是在(base_lr,max_lr)之间学习率循环波动,波动函数和iteration、stepsize相关。一个cycle(周期)也就是学习率从最低到最高再到最低的iteration数量。
CLR的优势:
- 能够更快的跳出鞍点;
- 最优的LR肯定落在最小值和最大值之间。我们确实在迭代过程中使用了最好的LR
keras实现CLR:
clr = CyclicLR(base_lr=0.001, max_lr=0.006,step_size=2000.)
model.fit(X_train, Y_train, callbacks=[clr])
如何确定max_lr和base_lr:
如[1]中所述:先跑几个epoch,并且让学习率线性增加,观察准确率的变化,从中选出合适的base 和max lr。一般差一个数量级
CLR变体:
详细内容参考[2],其实就是max_lr不断衰减的过程,不同变体衰减的方法有所不同。
- triangular2:衰减系数
1
/
2
1/2
1/2
每个周期后max_lr衰减为上一个周期的一半
clr = CyclicLR(base_lr=0.001,max_lr=0.006,step_size=2000.,mode='triangular2')
model.fit(X_train, Y_train, callbacks=[clr])
- exp_range:衰减系数
g
a
m
m
a
i
gamma^i
gammai
指数衰减
clr = CyclicLR(base_lr=0.001, max_lr=0.006,
step_size=2000., mode='exp_range',
gamma=0.99994)
model.fit(X_train, Y_train, callbacks=[clr])
[1]https://github.com/bckenstler/CLR
[2]https://blog.youkuaiyun.com/weixin_43896398/article/details/84762886
[3]https://www.kaggle.com/hireme/fun-api-keras-f1-metric-cyclical-learning-rate/code