论文阅读（一）ec2GAN

最新推荐文章于 2025-12-12 23:56:18 发布

原创最新推荐文章于 2025-12-12 23:56:18 发布 · 493 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘

科研论文（过去式）专栏收录该内容

2 篇文章

订阅专栏

eCommerceGAN : A Generative Adversarial Network for E-commerce

电商网站每年产生的订单只占了所有合理订单的一小部分。然而，探索所有合理订单的空间能更好地理解电子商务系统中不同实体之间的关系，即客户和他们购买的产品。这篇文章的贡献：以密集低维的方式表示订单、ecGAN模型生成订单、ec2GAN模型来生成指定产品的订单

文章目录

eCommerceGAN : A Generative Adversarial Network for E-commerce

1 介绍

低维表示的可行性

产品空间

虽然各大电商网站有数十亿种产品，但是由于产品类别、子类别、价格范围、品牌、制造商等都有内在结构，产品空间的维度其实要低得多。

也就是说在研究产品—顾客关系的时候，必然要把产品表示成向量，但是无需把每个产品都单独地表示出来，也就是说没有必要使用独热向量编码这种方法（不仅高维而且非常稀疏）。从直观上看，要定义一个产品，把它的类别（衣服、电器、美妆等）、价格、制造商等这些表示出来就可以了。不关注单个产品，而是关注由相似产品所组成的产品组，用这个组的整体表示代替单个的产品的表示。

顾客空间

在客户方面，虽然有几亿客户，但客户可以根据购买行为的相似性、价格/品牌敏感度、种族等进行分组，所以他们也能存在于较低维度的空间。

订单空间

理论上，在把产品映射到一个低维的产品空间、顾客映射到一个低维的顾客空间之后，整个电子商务订单是这两个空间的点的笛卡尔积（原文是interaction，但我觉得用笛卡尔积的概念更容易理解）。但是其中，某些点是合理的，某些点是不合理的。也就是说，有些顾客就不会买某些产品（比如在不考虑买礼物、代购等特殊情况下，一个老人就不会买奶嘴之类的东西）。

但是已经在电子商务网站上产生的订单只占所有可信订单的一小部分。探索合理订单的空间可以为产品需求、客户偏好、价格估计、季节变化等提供重要的见解，可能会直接或间接影响收入和客户满意度。

论文主要内容

这篇文章的主要内容：

订单的四元组表示法：{customer,product,price,date}。每个分量都是稠密低维的向量
ecGAN生成订单。
ec²GAN包含特定产品的订单。

2 预备知识

GAN

组成：生成器（G）和判别器（D）

	Input	Output
生成器G	随机噪声向量	与真实数据点相似的样本
判别器D	样本点	真或假程度（[0~1]）

随机噪声的含义

随机噪声是一个符合高斯分布的随机变量，GAN本来就是完成一个分布的变换，GAN的生成器就是把一个高斯分布（或其他随机分布）变换成目标数据分布。这里实际是把输入的随机变量当成了数据的latent space。以生成人脸为例，人脸有不同的姿态、人种、年龄、表情、发型、肤色、妆容等，可以理解为多个分布的组合。

符号定义
$p_{Data}(x)：真实数据分布\\ p_Z(z)：噪声分布，（采用标准正态分布） \\ D：X \rightarrow [0, 1] \\ G：Z \rightarrow X'$

最大最小博弈

对判别器D来讲，目的是输入真实数据尽量输出1，输入虚假数据尽量输出0。
对生成器G来讲，目的是产生的数据输入到D后，尽量输出1。

所以D和G之间的博弈关系可以表示成：
$max_D \space min_G V(D,G) = E_{x∼P_{Data(x)}}[logD(x)] + E_{z∼P_{Z(z)}}[1-log(D(G(z)))]$
得到的优化代价函数：
$J^{(D)} = - \frac{1}{2}E_{x∼P_{Data(x)}}[logD(x)] -\frac{1}{2} E_{z∼P_{Z(z)}}[1-log(D(G(z)))] \\ J^{(G)} = - J^{(D)} 通常用：J^{(G)} = -log(D(G(z)))$

WGAN

最初的GAN论文使用最小化JS散度，但是使用JS散度必须保证处处连续可微所以很难。大部分GAN的变体都是使用最小化f-散度来学习真实数据的分布。有人提出了Earth Mover's distance（Wasserstein距离，又称EM距离）作为一种更好的替代方案。下文主要讨论WGAN（Wasserstein距离）

WGAN原始论文

符号：
$P_r：真实数据分布\\ P_g：真实数据的近似分布 \\ θ：要学习的参数 \\ g_θ(z) = P_g \\$
生成器G的目标是其产生的数据分布和真实数据分布尽可能接近，根据Wasserstein距离的公式有：

$W(P_r,P_g) = inf_{γ∈∏(P_r,P_g)} E_{(x,y)∈γ}[||x-y||]\\$

解释： $P_r,P_g)$ 是 $P_r$ 和 $P_g$ 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 $γ$ ，可以从中采样 $(x,y)\sim γ$ 得到哟个样本x和y并计算出这对样本的距离 $∣ ∣ ∣ x - y ∣$ ，所以可以计算该联合分布下，样本对距离的期望 $y)\sim \gamma[||x-y||]$ 。在所有可能的联合分布中能够对这个期望取到的下界 $inf_{γ∈∏(P_r,P_g)} E_{(x,y)∈γ}[||x-y||]$ 就是Wasserstein距离。