推荐系统论文粗读记录【一】

1.【FM】《Factorization Machines》
作者: Rendle, Steffen
发布时间: 2010-12
来源: 2010 IEEE International Conference on Data Mining
引用数: 2062
地址: https://doi.org/10.1109/ICDM.2010.127
笔记: FM将SVM模型的优势和因式分解模型结合。FM模型的优势:1、允许在数据稀疏的情况下参数估计。2、FM模型复杂度是线性的,3、FM模型是通用的预测模型,可以应用于任何实值向量。
FM模型被定义为: y ^ ( x ) : = w 0 + ∑ i = 1 n w i x i + ∑ i = 1 n ∑ j = i + 1 n < v i , v j > x i x j \hat y(\mathbf x):=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf v_i,\mathbf v_j>x_ix_j y^(x):=w0+i=1nwixi+i=1nj=i+1n<vi,vj>xixj其中 < v i , v j > : = ∑ f = 1 k v i , f ⋅ v j , f <\mathbf v_i,\mathbf v_j>:=\sum\limits_{f=1}^{k}v_{i,f}·v_{j,f} <vi,vj>:=f=1kvi,fvj,f k k k是定义的因子分解的维度,是一个超参数。模型的时间复杂度为 O ( k n 2 ) O(kn^2) O(kn2) 。通过数学转换变成线性复杂度 O ( k n ) O(kn) O(kn) ∑ i = 1 n ∑ j = i + 1 n < v i , v j > x i x j                                                         \sum_{i=1}^{n}\sum_{j=i+1}^{n}<\mathbf v_i,\mathbf v_j>x_ix_j\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space i=1nj=i+1n<vi,vj>xixj                                                        = 1 2 ∑ i = 1 n ∑ j = 1 n < v i , v j > x i x j − 1 2 ∑ i = 1 n < v i , v i > x i x i          =\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}<\mathbf v_i,\mathbf v_j>x_ix_j-\frac{1}{2}\sum_{i=1}^{n}<\mathbf v_i,\mathbf v_i>x_ix_i\space\space\space\space\space\space\space\space =21i=1nj=1n<vi,vj>xixj21i=1n<vi,vi>xixi         = 1 2 ( ∑ i = 1 n ∑ j = 1 n ∑ f = 1 k v i , f v j , f x i x j − ∑ i = 1 n ∑ f = 1 k v i , f v i , f x i x i )              =\frac{1}{2}(\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{f=1}^{k}v_{i,f}v_{j,f}x_ix_j-\sum_{i=1}^{n}\sum_{f=1}^{k}v_{i,f}v_{i,f}x_ix_i)\space\space\space\space\space\space\space\space\space\space\space\space =21(i=1nj=1nf=1kvi,fvj,fxixji=1nf=1kvi,fvi,fxixi)             = 1 2 ∑ f = 1 k ( ( ∑ i = 1 n v i , f x i ) ( ∑ j = 1 n v j , f x j ) − ∑ i = 1 n v i , f 2 x i 2 )                       =\frac{1}{2}\sum_{f=1}^{k}((\sum_{i=1}^{n}v_{i,f}x_i)(\sum_{j=1}^{n}v_{j,f}x_j)-\sum_{i=1}^{n}v_{i,f}^2x_i^2)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space =21f=1k((i=1nvi,fxi)(j=1nvj,fxj)i=1nvi,f2xi2)                      = 1 2 ∑ f = 1 k ( ( ∑ i = 1 n v i , f x i ) 2 − ∑ i = 1 n v i , f 2 x i 2 )                                       =\frac{1}{2}\sum_{f=1}^{k}((\sum_{i=1}^{n}v_{i,f}x_i)^2-\sum_{i=1}^{n}v_{i,f}^2x_i^2)\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space =21f=1k((i=1nvi,fxi)2i=1nvi,f2xi2)                                     

2.【FFM】《Field-aware Factorization Machines for CTR Prediction》
作者: Juan, Yuchin and Zhuang, Yong and Chin, Wei-Sheng and Lin, Chih-Jen
发布时间: 2016-09
来源: Association for Computing Machinery Proceedings of the 10th ACM Conference on Recommender Systems
引用数: 273
地址: https://doi.org/10.1145/2959100.2959134
笔记: FFM模型的想法来源于【PITF模型】,加入了Field信息,之前的FM模型每个特征只有一个语义向量,FFM模型每个特征有多个语义向量对于不同的field。 Φ F F M ( ( w , v ) , x ) = w 0 + ∑ i = 1 m x i w i + ∑ i = 1 m ∑ j = i + 1 m x i x j < v i , F ( j ) , v j , F ( i ) > \Phi_{FFM}((w,v),x)=w_0+\sum_{i=1}^{m}x_iw_i+\sum_{i=1}^{m}\sum_{j=i+1}^{m}x_ix_j<v_{i,F(j)},v_{j,F(i)}> ΦFFM((w,v),x)=w0+i=1mxiwi+i=1mj=i+1mxixj<vi,F(j),vj,F(i)>相对于FM模型就是对后面的特征交互项进行了改进。

3.【FwFM】《Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising》
作者: Pan, Junwei and Xu, Jian and Ruiz, Alfonso Lobos and Zhao, Wenliang and Pan, Shengjun and Sun, Yu and Lu, Quan
发布时间: 2018-03
来源: Proceedings of the 2018 World Wide Web Conference on World Wide Web
引用数: 114
地址: https://arxiv.org/abs/1806.03514
笔记: FwFM模型在不同的field之间构建不同的特征交互。多类别特征数据的几个挑战:1、特征交互时普遍的,需要专门建模。2、不同field的不同特征交互是不同的。3、潜在的高模型复杂度。FwFM模型: Φ F w F M s ( ( w , v ) , x ) = w 0 + ∑ i = 1 m x i w i + ∑ i = 1 m ∑ j = i + 1 m x i x j < v i , v j > r F ( i ) , F ( j ) \Phi_{FwFMs}((w,v),x)=w_0+\sum_{i=1}^{m}x_iw_i+\sum_{i=1}^{m}\sum_{j=i+1}^{m}x_ix_j<v_i,v_j>r_{F(i),F(j)} ΦFwFMs((w,v),x)=w0+i=1mxiwi+i=1mj=i+1mxixj<vi,vj>rF(i),F(j)模型参数对比:在这里插入图片描述
模型的TensorFlow实现:在这里插入图片描述

4.【FmFM】《FM2: Field-Matrixed Factorization Machines for Recommender Systems》
作者: Sun, Yang and Pan, Junwei and Zhang, Alex and Flores, Aaron
发布时间: 2021-06
来源: Association for Computing Machinery Proceedings of the Web Conference 2021
引用数: 9
地址: https://doi.org/10.1145/3442381.3449930
笔记: 数据:多领域类别数据,每个特征属于一个领域。本文提出一个新颖的,高校准确地构建领域信息模型的方法。该方法是直接在FwFM的基础上进行改进。微调了交叉项,支持指定领域类型可变维度向量输入。论文对之前的一系列FM模型进行了分析:
1、最初的线性模型缺乏对特征交互的表示。
2、改进线性模型,增加特征之间的交互项,使用二次多项式模型。模型参数太多O(m^2)
3、使用FM替换二次多项式,使用特征向量的点积表示特征之间的交互信息。FM忽略了一个特征和不同类别中的特征之间的交互具有不同的行为结果。
4、FFM(Field-aware FM)为特征向量增加field类别信息F(i)。大量的参数使得模型在实际生产中不可用。
5、FwFM(Field-weighted FM)为特征之间不同领域增加权重。
FmFM(Field-matrix FM)通过二维矩阵表示两个领域类别的交互信息,把模型进行拆分三个步骤:1、feature embedding lookup;2、特征(i)和领域类别矩阵(M)交互的Transformation。3、特征(j)和步骤2的结果进行dot-product。 Φ F m F M ( ( w , v ) , x ) = w 0 + ∑ i = 1 m x i w i + ∑ i = 1 m ∑ j = i + 1 m x i x j < v i M F ( i ) , F ( j ) , v j > \Phi_{FmFM}((w,v),x)=w_0+\sum_{i=1}^{m}x_iw_i+\sum_{i=1}^{m}\sum_{j=i+1}^{m}x_ix_j<v_iM_{F(i),F(j)},v_j> ΦFmFM((w,v),x)=w0+i=1mxiwi+i=1mj=i+1mxixj<viMF(i),F(j),vj>
在这里插入图片描述

5.【TransFM】《Translation-Based Factorization Machines for Sequential Recommendation》
作者: Pasricha, Rajiv and McAuley, Julian
发布时间: 2018-09
来源: Association for Computing Machinery Proceedings of the 12th ACM Conference on Recommender Systems
引用数: 28
地址: https://doi.org/10.1145/3240323.3240356
笔记: 通过用户历史上的一系列行为预测未来的行为,从而进行推荐。TransFM模型将转换算法和基于FM的序列推荐算法结合起来。利用translation component 替代FM特征交互的内积,并使用平方欧式距离来比较特征维数对之间的兼容性(如下图)。在这里插入图片描述
模型被定义为: y ^ ( x ⃗ ) = w 0 + ∑ i = 1 n w i x i + ∑ i = 1 n ∑ j = i + 1 n d 2 ( v ⃗ i + v ⃗ i ′ , v ⃗ j ) x i x j \hat y(\vec x)=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}d^2(\vec v_i+\vec v'_i,\vec v_j)x_ix_j y^(x )=w0+i=1nwixi+i=1nj=i+1nd2(v i+v i,v j)xixj其中平方欧式距离: d 2 ( a ⃗ , b ⃗ ) = ( a ⃗ − b ⃗ ) ⋅ ( a ⃗ − b ⃗ ) = ∑ f = 1 k ( a f − b f ) 2 d^2(\vec a,\vec b)=(\vec a-\vec b)·(\vec a-\vec b)=\sum\limits_{f=1}^{k}(a_f-b_f)^2 d2(a ,b )=(a b )(a b )=f=1k(afbf)2下图提供了TransFM使用的预测方法和各种基线模型的比较:
在这里插入图片描述

<think>嗯,用户问的是怎么用ArcGIS制作论文里的研究区概况图。首先,我得回想下自己使用ArcGIS的经验,以及通常制作这类地图的步骤。研究区概况图通常包括地理位置、地形、主要地物等信息,可能需要分层展示。 首先,用户可能需要准备数据。基础地理数据比如行政边界、水系、道路这些应该是必须的。可能还需要DEM数据来显示地形。然后,数据导入到ArcGIS里,进行坐标系设置,确保所有数据在同坐标系下,这样叠加才不会出问题。 接下来,符号化处理。不同图层用不同的颜色和符号区分,比如水域用蓝色,道路用虚线,边界用粗线。可能需要调整颜色搭配,让图看起来清晰美观。 然后,布局视图的设置。这里要插入比例尺、指北针、图例,这些元素对论文图很重要。用户可能需要调整它们的位置和样式,确保符合学术规范。另外,标注文字的大小和字体也要注意,不能太小,要易读。 可能用户还会需要添加插图,比如在全国地图中的位置,作为小图放在角落。这需要创建另个数据框,调整大小和位置,可能需要使用缩放工具来突出研究区域。 导出图片的时候,分辨率和格式是关键。通常建议高分辨率(300dpi以上)的PDF或TIFF,这样印刷时不会模糊。另外,用户可能需要注意版权问题,确保使用的数据是公开或者有使用权限的。 还有些细节,比如是否添加经纬网格,或者地形晕渲效果,这些会让图更专业。如果用户有DEM数据,用山体阴影工具可以增强地形表现。可能需要提醒用户检查所有元素的准确性,比如比例尺是否正确,图例是否完整。 另外,用户可能不太清楚如何将多个数据框整合到个布局里,这时候需要指导他们使用布局视图中的插入数据框功能,并调整各个元素的位置。可能还需要提到动态标注,避免文字重叠,或者手动调整标注位置。 最后,导出后的图片可能需要在其他软件(比如Adobe Illustrator)中进行美化,但ArcGIS本身已经可以完成大部分工作。提醒用户保存工程文件,方便后续修改。总结步骤的时候,要分点清晰,让用户步步跟着操作,避免遗漏关键环节。</think>以下是用ArcGIS制作论文研究区概况图的详细步骤指南,按科研制图规范整理、数据准备阶段 1. 基础数据获取 $$ \text{数据类型} = \{ \text{行政边界}, \text{DEM数字高程}, \text{水系分布}, \text{道路网络}, \text{土地利用} \} $$ 建议通过国家地球系统科学数据共享平台或地理空间数据云获取权威数据 2. 数据预处理 - 统坐标系(推荐WGS84或CGCS2000) - 执行拓扑检查(ArcCatalog → 新建拓扑) - 要素裁剪(Geoprocessing → Clip) 二、制图流程 1. 符号化设计 $$ \text{颜色规范} = \begin{cases} \text{水域} & \text{#0077BE} \\ \text{植被} & \text{#228B22} \\ \text{建设用地} & \text{#8B0000} \\ \end{cases} $$ 使用分级符号表示高程(Symbology → Classified) 2. 布局设计 ```python # 伪代码示例 layout = arcpy.mapping.Layout() layout.addElement(MapFrame(size=(18cm, 12cm), position=(2cm, 2cm))) layout.addScaleBar(type='Alternating', units='kilometers') layout.addNorthArrow(style='ESRI North 6') ``` 3. 关键要素标注 - 启用Maplex标注引擎 - 设置标注优先级:$P(\text{标注})=[\text{行政中心} > \text{水系} > \text{山峰}]$ - 使用halo效果增强可读性 三、专业优化技巧 1. 三维地形表达 $$ \text{山体阴影} = \text{Hillshade}(DEM, azimuth=315^\circ, altitude=45^\circ) $$ 建议透明度设置为40%-60% 2. 多尺度表达 创建比例依赖显示规则: $$ \text{显示阈值} = \begin{cases} 1:500,000 & \text{显示省级边界} \\ 1:100,000 & \text{显示县级边界} \\ \end{cases} $$ 四、成果输出 1. 导出参数设置 - 分辨率 ≥ 300 dpi - 色彩模式:CMYK(用于印刷)/ RGB(用于屏幕展示) - 文件格式:PDF(矢量)/ TIFF(栅格) 2. 元数据记录 $$ \text{元数据字段} = \left\{ \begin{aligned} &\text{坐标系} \\ &\text{数据来源} \\ &\text{制图日期} \\ &\text{比例尺精度} \end{aligned} \right. $$ 注意事项: 1. 遵守《测绘成果保密管理规定》,处理涉密数据需进行脱密处理 2. 使用Style Manager统管理符号库 3. 建议采用分层设色法时参考ColorBrewer配色方案 补充工具推荐: - ArcGIS Pro 3D Analyst扩展模块(用于地形分析) - Data Reviewer(用于数据质检) - Maplex Label Engine(专业标注引擎)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值