1. 工作总结
- 情感分析常用流程
- 经典情感分析算法调研 (~ 2014)
- 基于深度学习的情感分析算法调研 (2014 ~ 2018)
- 可用情感分析API/ github项目调研
- ES语义搜索
2. 情感分析常用流程
2.1 数据预处理
2.1.1 分词 Tokenization
- break a sentence into words, phrases, symbols or other meaningful tokens by removing punctuation marks
- 常用开源分词工具:
2.1.2 停用词消除 stop word removal
- Stop words do not contribute to analysis and hence are dropped during preprocessing step
2.1.3 词干提取 Stemming
本次任务为中文,不需要这步
2.1.4 词性标注 POS tagging
recognize different parts of speech in the text
2.1.5 特征提取 Feature Extraction
- motivation:文本数据稀疏,噪声数据多,因此需要特征提取,生成一组新的、较少的特征来表示信息
- 常用算法如 Latent Semantic Indexing(PCA),LDA等
2.1.6 特征选择 Feature Selection
- motivation:在原有特征中筛去无用或不相关特征,形成原特征的子集
- 常用算法如 Pointwise Mutual Information (PMI), chi-square, latent semantic indexing
- PMI
-
- 想量化两个词同时出现的可能性
-
- P M I ( a , b ) = l o g ( P ( a , b ) P ( a ) ⋅ P ( b ) ) PMI(a,b) = log(\frac{P(a,b)}{P(a)\cdot P(b)}) PMI(a,b)=log(P(a)⋅P(b)P(a,b)),即a与b的联合概率分布于a和b的概率的乘积的比值
-
- 而在情感分析中,他可以拓展为去测量某一情感分类和某个词同时出现的可能性,以此来寻找向性词
-
- 同时,他仍然可以衡量两个词之间的关系,若一正向词和目标词的PMI较大,那么有很大的可能性目标词也为正向,或目标词出现时文本更可能是正向
- Chi-square
-
- class i 和 word b可互换
-
- 目前为某一情感分类和某个词同时出现的可能性
-
- χ i 2 = n ⋅ F ( w ) 2 ⋅ ( p i ( w ) − P i ) 2 F ( w ) ( 1 − F ( w ) ) ⋅ P i ( 1 − P i ) \chi_i^2 = \frac{n\cdot F(w)^2\cdot (p_i(w)-P_i