
数据挖掘
数据挖掘
_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
【搜索算法】以扩召回为目标,item-tag不如query-tag能扩更多数量
如果扩召回的逻辑是:query-tag等于item-tag时,输入query召回该item,那么每个query-tag可平均召回500个item,,(1-item --> 1tag --> 1500query),如果想给item挖掘tag打上,每个item要挖掘1500个tag之多!如果item类目体系一共20个类目,每个item都有一个类目,一共有10000个item,则平均每个类目tag下有500个item,,如果一共30000个query,那么。那么给每个query打上一个类目,原创 2024-09-16 08:12:20 · 330 阅读 · 0 评论 -
query作为tag打在item上,理论上能解决所有搜索的召回问题
比如搜 奶茶 在 呷哺 下单,(呷哺也在卖奶茶),有上万个 奶茶query 都在 呷哺item 下单,那么给 呷哺item 打上 奶茶tag 肯定是OK的一条数据,通过 高频query的订单 找到的query-item的绑定关系,作为训练数据,有了模型后,然后对 比如 item呷哺呷哺 进行预测出 奶茶tag。在订单越大的时候,数据是越置信的,原创 2024-02-29 19:26:18 · 454 阅读 · 0 评论 -
基于用户搜索行为,给query打上item的标签
用户高频搜 牛肉拉面 — 高频下单 面馆A 面馆B。用户高频搜 牛肉面 — 高频下单 面馆A 面馆B。面馆A,面馆B 的标签都是 面类饭店。然后对 所有饭店 进行预测。训练一个文本生成模型,原创 2024-02-07 21:44:29 · 370 阅读 · 0 评论 -
线上AB实验的日志分析
分析出了 受影响这部分商家/商品的正向或负向,很重要,可以决定在大盘指标不显著时,是否延长观察时间,如果受策略影响这部分是正向的,且影响面不小,那么大盘大概率只是暂时不正向的。商家/商品,可统计分析出哪些(类别的)商家/商品受策略影响之后 正向最大 或 负向最大,可以关闭负向部分的商家/商品的策略。具体操作:在实验组圈选出 受策略影响的商家/商品,对这部分商家/商品,统计实验组VS对照组的效果指标。商家/商品,则统计分析出受影响这部分的效果指标。原创 2023-11-20 22:20:13 · 186 阅读 · 0 评论 -
AB实验 置信度检验 / T检验,采样vs不采样
所以用每天的RPM绝对值不行,必须采样到每个用户的RPM。实验组的涨幅 被 天和天之间 的波动幅度盖过。可以直接传入T检验的接口计算。T检验是算两个分布的差异。原创 2023-10-24 11:12:43 · 176 阅读 · 0 评论 -
Neural Insights for Digital Marketing Content Design 阅读笔记
电商里,营销内容的实验,很重要。然而,创作营销内容是一个手动和耗时的过程,缺乏明确的指导原则。本文通过 基于历史数据的AI驱动的可行性洞察,来弥补 营销内容创作 和 在线实验 之间的差距,以改善营销内容的创作过程。本文提出了一个基于神经网络的系统,该系统对营销内容设计进行评分 并提取洞察。具体来说,是一个多模态神经网络 预测营销内容的吸引力。不仅指出了当前营销内容的优点和缺点,还根据历史数据提供了设计建议。本文的评分模型和洞察 在定量和定性上都工作得很好。原创 2023-09-27 10:24:30 · 150 阅读 · 0 评论 -
线上AB实验效率提升,一些经验
就是满足什么条件 认为实验结果是置信的,满足什么条件 可以推全,是 除了大盘 AB提升 大于两倍 AA波动 以外的条件。(pvalue的计算方法的正确性的验证:AA波动 在 实验周期的分布vs历史周期的分布 的pvalue>0.2)这些条件可以是离线统计分析的结果,比如只看受策略影响的商品/商家的AB/AA指标表现。AB提升 在 实验周期的分布vs历史周期的分布 的pvalue原创 2023-09-19 16:43:38 · 102 阅读 · 0 评论 -
策略影响力小的线上AB实验,一些经验
2,一共十个桶,每个桶10%用户分流,实验组流量扩量,比如10%扩到20%,这时不要复用之前的10%的那个桶,因为策略效果会随时间衰减,最好另开20%的2个桶。1,实验配置的历史记录一定要周全和完整,因为有时发现,已经可以看一个月的实验数据了。3,一个月的实验效果,确实稳定不少,比观察一周两周稳定。原创 2023-09-14 16:06:55 · 155 阅读 · 0 评论 -
T检验用历史数据判断实验指标的置信度
【代码】用历史数据判断实验指标的置信度。原创 2023-09-13 17:22:59 · 234 阅读 · 0 评论 -
分析商品/商家上的某类型文案好坏的思路
一个商品/商家卡片,上面有一个文案,每个文案有一个文案类型,现在想分析出 某类型文案 的好坏,分析出 某类型文案 对于用户展示的好坏,分析出 哪类文案好 哪类文案略差。原创 2023-09-04 15:01:31 · 120 阅读 · 0 评论 -
Improving Training Stability for Multitask Ranking Models in Recommender Systems 摘要
在YouTube数据集上的实验表明,与几种常用的基准方法相比,所提出的算法可以显著提高训练稳定性,同时不会影响收敛性。本文分享我们学习到的用于提高YouTube推荐系统 多任务排序模型的 训练稳定性 的发现和最佳实践。大多推荐系统的工作,想研究一个更好的模型,然而我们发现 训练稳定性 被低估。训练稳定性,比如loss divergence,会使模型不可用。提出新的算法来缓解现有解决方案的局限性。原创 2023-08-16 09:31:34 · 329 阅读 · 0 评论 -
item名字的token-embedding,作为CTR模型的特征,是有效果的
如此设计认为可以是完成一个 item名字 和 item属性 的匹配的任务,然后取transformer 输入的embedding,用生成模型decoder-only transformer,每个数据,item名字作为输入,item属性作为输出,这个embedding作为CTR模型的特征,还不如 item名字的token-embedding。原创 2023-07-23 10:14:08 · 116 阅读 · 0 评论 -
Learning Language Representations for Sequential Recommendation 阅读笔记
《Text Is All You Need: Learning Language Representations forSequential Recommendation》把 item序列里的每个item 用 item的文本 代替,输入比如GPT模型:原创 2023-05-30 21:14:26 · 246 阅读 · 0 评论 -
item2vec 阅读笔记
item embedding 目标是使item之间有相似性,本文的方法,可以在没有用户信息的时候,得到item-to-item的相似性。原创 2023-05-30 11:04:56 · 95 阅读 · 0 评论 -
用户画像里技术是在做什么
用户画像的ground-truth-label原创 2023-01-16 11:27:24 · 111 阅读 · 0 评论 -
CTR模型取日志训练 最大的坑
不是 那个页面 下的所有东西的日志都取!就是要取准确的 那个控件 的点击和曝光,原创 2023-01-03 20:21:32 · 111 阅读 · 0 评论 -
set to set generation
set2set generation原创 2022-10-19 19:40:38 · 99 阅读 · 0 评论 -
选品池/精品池/候选池/召回池 问题
基于用户行为挖掘原创 2022-09-26 19:54:42 · 408 阅读 · 0 评论 -
评估模型预测结果好坏,需要的是ground-truth label,比如预测用户的优惠敏感度,其实无法评估
优惠敏感度任务原创 2022-09-26 09:31:45 · 192 阅读 · 0 评论 -
因果推断,入门代码解读
causal inference code原创 2022-09-06 15:08:36 · 677 阅读 · 0 评论 -
Mac安装causalml
Uplift Modeling and Causal Inference原创 2022-09-06 14:33:35 · 385 阅读 · 0 评论 -
几个因果推断的库/开源代码
Uplift Modeling and Causal Inference原创 2022-09-06 10:55:59 · 489 阅读 · 0 评论 -
CTR任务为何简单的MLP模型也能效果不错
CTR任务更看重百十个特征都发挥作用,而不是模型的表示能力。反过来MLP模型的表示能力也不如transformer,MLP预估一个0-1的分数可以,将user-item得到的representation去拟合一个比如100维的分布,就难了。我在做item上的个性化文案展示时,是这个样子,如果有100种文案,则如果用user-item的representation直接去拟合100维的分布,这时发现模型预测 不同user-item 的结果 相似度太高了,就是模型预测结果 都差不多是 训练数据里出现次数最多的原创 2022-03-04 14:37:37 · 704 阅读 · 0 评论 -
P(Y|X)公式与机器学习模型的理解
在 https://blog.youkuaiyun.com/jinping_shi/article/details/105583375 文章里,看到有P(Y|X)公式,却无法和机器学习模型联系起来,其实,P(Y|X)里的X是模型的输入,Y是模型的输出,P(Y|X)是输出为Y的概率,这时,模型的target是P(Y|X),也就是模型的target是一个(比如0到1的)概率,即是一个regression任务。...原创 2022-02-18 16:29:15 · 2037 阅读 · 0 评论 -
《Labeled Data Generation with Inexact Supervision》 KDD-2021 论文阅读
摘要互联网上有很多有网民自己填的target-label,也许是不完全对的 近似target-label,使用这些有这种 近似target-label 的数据(即inexact supervision)来生成 更近似target-label 的数据,本身是一个新颖的问题,引言如图所示,tags不是target-label,但tags可以用来生成target-label,所以问题就变成了:在有target-label的数据上训练,训练时,输入tags和要分类的句子,生成target-label原创 2021-09-22 17:43:49 · 236 阅读 · 0 评论 -
深度聚类 (Kmeans DeepLearning)相关论文和代码
https://github.com/zhoushengisnoob/DeepClustering原创 2021-08-16 18:38:29 · 1566 阅读 · 0 评论 -
AliCoCo 阅读笔记
论文名:AliCoCo: Alibaba E-commerce Cognitive Concept Net引言基本电商的图谱建设都是Category-Property-Value形式,Category是一颗树,其中Property就是 Category的叶子 下的属性。问题在于,用户通常不记得一个item的具体名字,而是只记得item的类别或者item其他相关信息。分类学taxonomy人工定义好taxonomy(分类学),domain有20种,主要的是Category, Brand, Colo原创 2020-06-08 20:11:37 · 1046 阅读 · 0 评论 -
正则表达式 匹配任意零个到多个字符
import reprint(re.findall("防治.{1,2}动脉硬化","防治动脉硬化"))print(re.findall("防治.{1,2}动脉硬化","防治高血压动脉硬化"))print(re.findall("防治.{1,3}动脉硬化","防治高血压动脉硬化"))print(re.findall("防治.{1,4}动脉硬化","防治高血压动脉硬化"))prin...原创 2020-03-12 18:05:57 · 4157 阅读 · 0 评论 -
pandas dataframe 整列置零 和 全部统一置零
[:,:]原创 2018-06-29 12:46:18 · 22121 阅读 · 1 评论 -
xgboost 在一次训练中得到iteration里最好的模型,而不是最后一个iteration的模型
[240] train-logloss:0.263565 valid-logloss:0.392514[250] train-logloss:0.261231 valid-logloss:0.392377[260] train-logloss:0.257999 valid-logloss:0.392149[270] train-logloss:0.254814 val...原创 2018-06-07 16:55:09 · 2925 阅读 · 0 评论 -
xgboost 特征重要性选择 / 看所有特征哪个重要
xgb_trained_model = xgb.train(params, train_xgb_split, 500, watch_list, early_stopping_rounds=50, verbose_eval=10)importance = xgb_trained_model.get_fscore()temp1 = []temp2 = []for k in importanc...原创 2018-06-06 16:05:47 · 13501 阅读 · 4 评论 -
pandas to_csv 最左边 多一列 的问题
df_train = pd.read_csv('data/train.csv',encoding='utf-8')df_train.to_csv("train_preprocessed.csv",encoding='utf-8',index=False)设置index=False原创 2018-05-30 18:06:36 · 16359 阅读 · 3 评论 -
二分类问题 的 准确率、精确率、召回率、F1值、
准确率 - accuracy 精确率 - precision每条的统计由下图 然后原创 2018-05-30 17:29:59 · 9071 阅读 · 0 评论 -
xgboost 的 Precesion Recall F1 AUC ACC 混淆矩阵 计算
#省略……from sklearn.model_selection import train_test_splittrain_x, test_x, train_y, test_y = train_test_split(feature_matrix, labels, random_state=0)import xgboost as xgbdtrain=xgb.DMatrix(train...原创 2018-05-29 16:16:37 · 8879 阅读 · 0 评论 -
xgboost 二分类 选出最好的F1
from sklearn import metrics#valid_predict是0到1的值,未进行设定阈值划分为0和1precision, recall, thresholds = metrics.precision_recall_curve(valid_label, valid_predict)all_f1 = []for i in range(len(thresholds)): ...原创 2018-06-05 10:27:06 · 3104 阅读 · 1 评论 -
pandas dataframe 同时操作两列 / 多列
def my_test(a, b): return a + bdf['value'] = df.apply(lambda row: my_test(row['c1'], row['c2']), axis=1)原创 2018-07-02 17:46:33 · 27600 阅读 · 0 评论 -
pandas 获取dataframe数据总量,总行数,一共多少数据,一共多少行
pd.DataFrame({"column0":column0_data}).shape[0]原创 2018-06-28 17:09:34 · 45739 阅读 · 0 评论 -
xgboost / lightgbm for NLP 添加一些 写死的/hardcode 的比如同义词 “特征”/规则
two-text-match这个任务,如果我把"谁写的","谁的著作"这两个词看为同义词,则我强行指定 分别出现这两个词的 这对句子match程度为1如果我把"古代流放", "流放"不看成同义词,则我强行指定 分别出现这两个词的 这对句子match程度为-1然后add_data = train_x[train_x[&quo原创 2018-06-28 18:21:47 · 830 阅读 · 1 评论 -
xgboost 加速
https://github.com/dmlc/treelite原创 2018-12-28 15:09:07 · 870 阅读 · 0 评论 -
“多线程”跑 xgboost CPP API
xgboost 0.72版本 将xgboost的CMakeList.txt里的openmp相关的删了 加锁pthread_mutex_lock(&lock_); XGBoosterPredict(h_booster, h_test, 0, 0, &out_len, &f);pthread_mutex_unlock(&lock_);...原创 2018-08-03 17:44:26 · 1643 阅读 · 2 评论