CIKM-2014论文《Latent Aspect Mining via Exploring Sparsity and Intrinsic Information》阅读笔记

本文介绍了一种名为Sparse Aspect Coding Model (SACM)的方法,旨在解决产品评论中aspect信息的发现和评分预测问题。SACM不仅能够预测用户对未提及aspect的评分,还能挖掘关键term,通过引入user intrinsic aspect interest和item intrinsic aspect quality的概念,解决了aspect sparsity问题。模型采用块坐标梯度下降算法进行优化。

权且当做阅读笔记。

 

The goal of this work

1. 发现当前review未知的aspect信息,然后预测用户对于这些aspect的评分(Ratings);

2. 挖掘每个aspect的关键terms(topic modeling过程)。

Aspects: 比Domain小一层的单位,一个Domain下面包含了多个aspects

Aspect sparsity 问题:Review只提到了一些aspects,而不是全部的aspects. 解决的办法:利用Lasso里面的l_{1}-regularizer正则取Means方法来解决sparsity of aspect proportions. 

 

心得

1. 基本可以肯定是在2011年的工作STC(Sparse Topical Coding)的基础上的工作;

2. 作者说要改进Maximum A Posterior(MAP)直接运用在STC上,改成了提出一个新的算法:block coordinate gradient descent (块坐标梯度下降)。

3. 提出两个新的notions: user intrinsic aspect interest和item intrinsic aspect quality,个人预测是两个中间层的分布(可能是motinomial distribution)

 

Model Overview and Description:

1. 一些概念(notion)的区分问题:

(1)user intrinsic aspect interest和LRR模型提出来的aspect weight:

前者不依赖于item,后者依赖于item。例如,一个饮食爱好者,评论任何酒店,都倾向于评论该酒店的饮食,这和item--Hotel没有关系。

(2)item intrinsic aspect quality:

对于某个特定的item,如酒店(Hotel),内在的对于每个aspect的质量评估。例如,对于五星级酒店,那所有五星酒店的quality明显高于其他的hotel(这个就依赖于review本身的star就好了??)

2. SACM(Sparse Aspect Coding Model)的特点

(1)分析了Aspect Sparse的原因并可以用以上两个notions去解决;

(2)Aspect Rating的建模根据高斯分布with the Mean related to item intrinsic aspect quality和用户内在方面兴趣(user intrinsic aspect interest)的方差(variance)。例如,一个用户对某个aspect感兴趣,则他会在各种review中都评论该aspect并给出aspect rating,这些rating都有高低,方差较大。

3. 模型背景--Sparse Topical Coding (STC)

(1) document code:θ_{d}  \theta_{d}\in\mathbb{R}_{+}^{\mathit{K}} ,一个K维向量,表示每个doc在每个topic上的关联强度(associate strength),和传统的概率模型不同,\sum \theta_{d}\neq 1 。

(2) word code: s_{dn} ,一个K维向量,它的第k行component s_{dnk} 表示了文档d中第n个词在topic k上的关联强度(associate strength)。同样地,\sum s_{dnk}\neq 1 。

Notice: 一个word可能assign to多个topic,这一点和传统话题模型不同。

(3) K*N维矩阵\beta \in \mathbb{R}_{+}^{\mathit{K\times N}}:字典。

(4) 联合概率分布:p(\theta _{d},s_{d},\{w_{dn}\}_{n\in I_{d}}\vert \beta)=p(\theta_{d})\sum p(s_{dn}\vert \theta_{d})p(w_{dn}\vert s_{dn},\beta)

(5) 推断方法:MAP(Maximum A Posterior), 公式 \hat{\Omega}_{MAP}=\underset{\Omega }{argmax}p(\Omega \vert \{w_{dn}\}_{d\in \textit{D}}, n\in I_{d})

(6) 

 

4. 模型描述--Sparse Aspect Coding Model

(1) Generative Process: 根据user intrinsic aspect interest t_u和item intrinsic aspect quality q_h,选定既有aspect的子集,用于描述当前review,并决定描述该review每个aspect的文本比例;然后选择一些opionionated words来构成该review。

(2) Aspect Rating(各方面的独立评分)

(3) 根据aspect weight求取该user的评分总和。

(4) document code \theta_d\theta_d=t_{u_d}\circ q_{h_d}。利用Hadamard积计算。

(5) word code s_{dn}:从概率p(s_{dn}\vert \theta_d)抽样,和传统概率模型不同,s{dn} 从超高斯分布中抽取:p(s_{dn}\vert \theta_d) \propto exp(-\gamma\left \| s_{dn}-\theta_d \right \|^2_2-\rho \left \| s_{dn} \right \|_1)

(6) 每篇文档中的word count抽样:泊松分布(Poisson Distribution)p(w_{dn}\vert s_{dn},\beta)=Poiss(w_{dn};s_{dn}^T\beta_{\cdot n})

(7) Aspect weight \eta _d :一篇评论d中,用户对某方面k的权重(for the overall rating):\eta _d = \frac{exp(\theta_{dk})}{\sum _j{exp(\theta_{dj})}}

(8) Aspect rating Y^A_{dk}\sim N(q_{h_dk},\alpha^2t^2_{u_dk}) ,\alpha是高斯分布的方差,代表了用户在评价时的aspect interest

(9) 总体评分(Overall Rating)Y_{d}\sim N (\eta _d^TY^A_d,c^2)c^2是高斯分布的方差,是预设固定值

(10)MAP优化技术--Block Coordinate Gradient Descent(块坐标梯度下降)

  • MAP估计的目标函数:\min f(\boldsymbol{\mathrm{Y,S,T, Q}},\beta, \alpha)+\lambda \left \| \boldsymbol{\mathrm{T}} \right \|_1+\rho \left \| \mathrm{\mathbf{S }}\right \|_1 ,约束条件(s.t. )\mathrm{\mathbf{T}}\geq 0, \mathrm{\mathbf{Q}}\geq 0, \mathrm{\mathbf{S}}\geq 0, \alpha \geq 0, \beta_k \in S^{N-1},\forall k
  • 常用优化方法:BCD(Block Coordinate Descent),STC采用了该方法。 
  • SACM提出了一种新的Block Coordinate Gradient Descent(BCGD),每次迭代先选择块\mathrm{\mathbf{B}} \in \{\mathrm{\mathbf{Y,S, T, Q, \beta, \alpha}}\},然后根据descent direction \mathrm{\mathbf{d}}(\mathrm{\mathbf{x}};\mathrm{\mathbf{B}})更新变量x^{new}=x+\alpha_{\mathrm{\mathbf{B}}}\mathrm{\mathbf{d}}(\mathrm{\mathbf{x}};\mathrm{\mathbf{B}})
  • Descent Direction\mathrm{\mathbf{d}}(\mathrm{\mathbf{x}};\mathrm{\mathbf{B}})\mathrm{\mathbf{d}}(\mathrm{\mathbf{x}};\mathrm{\mathbf{B}})=\arg \min \bigtriangledown f(x)^T\mathrm{\mathbf{d}}+\frac{1}{2}\left \| \mathrm{\mathbf{d}} \right \|^2_2 +r(x+\mathrm{\mathbf{d}})(具体求解过程见原论文)
  • the Aspect Dictionary Block \beta :线性算法

 

 

单向双向V2G 环境下分布式电源与电动汽车充电站联合配置方法(Matlab代码实现)内容概要:本文介绍了在单向和双向V2G(Vehicle-to-Grid)环境下,分布式电源与电动汽车充电站的联合配置方法,并提供了基于Matlab的代码实现。研究涵盖电力系统优化、可再生能源接入、电动汽车充放电调度、储能配置及微电网经济调度等多个关键技术领域,重点探讨了在不同电价机制和需求响应策略下,如何通过智能优化算法实现充电站与分布式电源的协同规划与运行优化。文中还展示了多种应用场景,如有序充电调度、鲁棒优化模型、多目标优化算法(如NSGA-II、粒子群算法)在电力系统中的实际应用,体现了较强的工程实践价值和技术综合性。; 适合人群:具备电力系统、新能源、智能优化算法等相关背景的科研人员、研究生及从事能源系统规划与优化的工程技术人员;熟悉Matlab/Simulink仿真工具者更佳。; 使用场景及目标:①用于科研项目中关于电动汽车与分布式电源协同配置的模型构建与仿真验证;②支持毕业论文、期刊投稿中的案例分析与算法对比;③指导实际电力系统中充电站布局与能源调度的优化设计。; 阅读建议:建议结合文中提供的Matlab代码与具体案例进行同步实践,重点关注优化模型的数学建模过程与算法实现细节,同时可参考文末网盘资源获取完整代码与数据集以提升学习效率。
【电动车】【超级棒】基于蒙特卡洛模拟法的电动汽车充电负荷研究(Matlab代码实现)内容概要:本文围绕基于蒙特卡洛模拟法的电动汽车充电负荷研究展开,利用Matlab代码实现对不同类型电动汽车(如常规充电、快速充电、换电模式)在不同场景下的充电负荷进行建模与仿真。通过蒙特卡洛方法模拟大量电动汽车的充电行为,结合用户出行规律、充电时间、电量需求等随机因素,分析电动汽车规模化接入电网后对电力系统负荷的影响,并探讨分时电价策略对充电负荷的引导作用,进而优化电网运行。研究涵盖充电负荷的空间分布特性、时间分布特征及对电网峰谷差的影响,旨在为电力系统规划和电动汽车有序充电管理提供理论支持和技术工具。; 适合人群:具备一定电力系统、交通工程或新能源汽车背景的研究生、科研人员及从事智能电网、电动汽车相关领域的工程技术人员。; 使用场景及目标:①用于研究大规模电动汽车接入对配电网负荷曲线的影响;②支撑分时电价、需求响应等政策制定与优化;③为充电站规划、电网调度、储能配置等提供数据支持和仿真平台;④适用于学术研究、课题复现及工程项目前期分析。; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注蒙特卡洛模拟的参数设置、充电行为的概率建模过程,并尝试调整输入变量以观察负荷变化趋势,加深对电动汽车充电负荷不确定性和聚合效应的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值