1 VSM 空间向量模型 用于信息检索
在离线索引阶段,需要对文档集合分词,并按照 BoW 模型表示得到每个文档的 TF-IDF 矢量,对分词后的文档集合建立倒排索引。当在线的查询到来时,也进行分词,从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的余弦距离,按距离由小到大进行排序。这样的一个基本框架也适用于广告这一大规摸数据挖掘问题。
虽然 VSM 不是实际系统中对检索候选进行排序的常见方法,不过要提醒大家注意,这是一种简单、无需训练的基线方法。因此,在探索各种数据驱动的精细模型时,要先将它们与 VSM 方法做比较。
2 最优化算法 拟牛顿法
批量梯度下降的问题:在实际的工程问题中,简单地采用批处理模式的梯度下降法有时会遇到一个麻烦:当函数值对各个自变量归一化不够好时,优化过程会陷入 Zig-Zag 折线更新的困境,这一现象可以用图 10-1 中的例子来形象地说明。在自变量维数很高时,这一问题尤为严重,因为我们无法一一检查各个自变量的意义,因此在某些维度上缩放尺度不一样是无法避免的。
用拟牛顿法来解决:
https://blog.youkuaiyun.com/lyy_sha/article/details/80594931
3 关于TFIDF提取关键词
关键词提取是一项基础技术。上下文定向中的关键词提取可以按照信息检索中的一般方法,即选取页面内容中 TF-IDF 较高的词作为关键词(见 10.1.2 节中的具体介绍);也可以采用需求方驱动的思路,从广告商相关描述中得到商业价值高的关键词表和 IDF,再与页面内容中关键词的 TF 一起计算 TF-IDF 来选取关键词。当能够得到比较丰富的广告信息时,如运营搜索引擎的文本广告,或者可以拿到广告主 SEM 词表时,后一种方法往往更加有效。
4 文档主题挖掘
文本主题模型有两大类别:一种是预先定义好主题的集合,用监督学习的方法将文档映射到这一集合的元素上;一种是不预先定义主题集合,而是控制主题的总个数或聚类程度,用非监督学习的方法自动学习出主题集合以及文档到这些主题的映射函数。广告中的主题挖掘有两种用途:如果仅仅用于广告效果优化的特征提取,那么监督或非监督的方法都可以;如果是用于对广告主售卖的标签体系,那么应该优先考虑采用监督学习的方法,因为这样可以预先定义好对广告主有意义且可解释的标签体系,对售卖会有很大帮助。