文本分析与自动演示开发:从预测到实时数据洞察
1. 利用余弦相似度扩展分析
在文本分析中,我们可以使用余弦相似度(Cosine Similarity,CS)这一线性代数技术来扩展分析。余弦相似度用于衡量向量之间的相似性(或差异性),其目的是测量客户消息之间的方向相似性(而非大小),并尝试用它来预测多次购买的相似结果。
1.1 余弦相似度计算
给定两个向量(在文档 - 特征矩阵(DFM)中为行),它们之间的余弦相似度通过以下步骤计算:
1. 计算两个向量的点积。
2. 计算两个向量的欧几里得范数的乘积。
3. 将点积除以欧几里得范数的乘积。
1.2 代码实现
# 定义计算余弦相似度的函数
cosine_similarities <- function(df) {
return(cosine(t(as.matrix(df[,-1]))))
}
# 定义计算平均余弦相似度的函数
mean_cosine_similarities <- function(df) {
similarities <- cosine_similarities(df)
indices <- which(df$MULTIPLE_PURCHASES == TRUE)
df$MULTIPLE_PURCHASES_SIMILARITY <- rep(1/2, nrow(df))
for (i in 2:nrow(df)) {
df$MULTIPLE_PURCHASES_SIMILARITY[i] <- mean(similari
超级会员免费看
订阅专栏 解锁全文
2842

被折叠的 条评论
为什么被折叠?



