- 博客(35)
- 收藏
- 关注
原创 [论文] pcgrad
定义1:夹角cos<0即为冲突定义2:如果梯度值的相似度高,则值为1,否则趋近于0定义3:多任务梯度∇Lθ∇Lθ的方向上,LL在θ\thetaθ和θ′θ′之间的平均曲率。
2023-12-03 21:56:48
321
原创 [论文] Exploring the Spatiotemporal Features of Online Food Recommendation Service
应用背景:online food recommendation service (OFRS)· 时空特征不是越多越好,精细化筛选可以提升模型效果;· 提出Dynamic Context Adaptation Model。
2023-10-29 22:04:54
154
原创 社区发现算法 louvain
由node和egde形成的网络图中,关系紧密的可以形成一个社区,其内部紧密,与外部连接稀疏。社区发现算法就是要检测网络结构中紧密的社区团。· 用什么可以描述社团的紧密程度:模块度(modularity), louvain算法的核心思想就是最大化模块度。
2023-10-15 22:29:55
608
原创 uncertainty weighted loss
背后的含义是: Loss 大的任务,包含的uncertainty也应该多,而它的权重就应该小一点。典型的例子是二分类任务 + 回归任务的多目标优化,L2 Loss 和交叉熵损失的 Loss 大小与梯度大小的量级和幅度可能差异很大,如果不处理会对优化造成很大干扰。为直接建模的uncertainty,是一个可学习的参数。总 Loss 设计成这样的形式,模型优化过程中会倾向于惩罚高 Loss 而低 公式 的情况(如果一个任务的 Loss 高,同时 公式 又小的话,这一项就会很大,优化算法就会倾向于优化它)。
2023-09-10 22:38:02
2145
原创 【论文】 modeling dual period-varing preferences
user- aware gate: 用户的个人偏好(同一个store, 有的用户偏向包子,有的偏向面条)把full interaction graph 拆成 food-level和 store-level。time-aware gate: 不同时间段的偏好。· 不同时间段的embedding是共享的。edge:US、UO、OS的两两交互。· 构建三元交互数据的图网络 G。再分别拆成四个时间段。
2023-08-27 20:56:48
141
原创 【论文】意图分析 NEON: Living Needs Prediction System in Meituan
我们把10个需求分为到店和到家两类,同时预测需求方式(Way)和具体的需求(Need);feature merging network: 把embedding后的用户特征、时空特征、group特征concat在一起。为了表征不收时空影响的用户偏好特征,直接将embedding前的用户特征放入user preference network。用户的意图识别包括在美团APP上吃、住、娱乐等需求的识别,对下游的个性化推荐有着关键的作用。用户的需求和他在平台上历史的需求之间有差别。需求天然受到时空的影响。
2023-08-20 21:23:51
454
原创 【强化】sparse reward
在很多情景下,做很多action可能都不会得到任何reward,只有在终态才会得到reward,这样对agent的学习是非常不利的,下面提出几种方法解决这种sparse reward的问题。
2023-07-30 21:44:27
77
原创 【强化】Q-learning + AC
aargmaxaQsaQ-learning 在处理连续值的时候会比较不方便,传统的做法:· sample一些离散的action: 无法取到最优· 用梯度上升法逐次求解:计算量大都有一些缺点。μ像高斯分布的均值,Σ像高斯分布的方差。为了最大化Q, 应该让aμs但是用Qlearning处理连续的action仍然不是最好的方法。
2023-07-23 22:07:23
114
原创 【强化】Q-learning(basic idea)
在使用TD的方法训练Q的时候,由于有两套参数需要update, 会导致训练不稳定,所以一般采取先freeze t+1部分的网络,只训练t部分的,参数更新多次之后再去update另一边。, 在state s强制使用action a(后续的action是不强制的), 得到的cumulated reward;所以,critic不止可以用来评估policy的好坏,还可以用来决策使用哪个action、找到更好的policy。· 下面这个例子用mc和td的方法计算出来的结果是不一样的。找到Q最大的action,
2023-07-02 19:30:33
121
原创 【学习ChatGPT】 3. PPO
expected reward: 穷举所有trajectory,算出total reward的均值。off-policy: 学习的agent和与环境交互的agent不是同一个。on-policy: 学习的agent和与环境交互的agent是同一个。一个整体reward是正的,但不代表其中每一步都是好的,所以加入credit。与mll的区别就是要乘上一个weight,也就是total reward。导致整个trajectory的reward是正的,那么就要增加在。的reward就是reward的期望值。
2023-05-28 22:50:06
186
1
原创 【运筹】0521 动态规划
第11章 动态规划动态规划是制定一系列相关决策时的一种数学方法,提供系统化的方法来寻求最优解,具有一定程度上的独创性和洞察力,以识别何时、如何 通过动态规划解决问题。
2023-05-21 22:30:10
174
原创 【学习ChatGPT】2. GPT2、GPT3、InstructGPT
复习: Transformer、GPT1 https://blog.youkuaiyun.com/Citroooon/article/details/130048167?
2023-04-16 01:33:28
444
原创 【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform
【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform
2023-02-26 23:16:02
503
原创 【论文】Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction
阿里妈妈 2022 kdd。
2023-02-12 21:06:17
314
原创 【论文】When Recommender Systems Meet Fleet Management: Practical Study in Online Driver Repositioning
调度论文
2022-12-10 23:14:23
476
1
原创 kafka的auto.offset.reset
关于kafak的offsetoffset 指的是每个消费组消费的下标,每条消息对应一个下标每次消费数据如果提交offset,那么下次消费就会从提交offset + 1 开始消费。如果100条数据,我消费了50条(0~49)并提交了,那下次就从50开始消费。cosumer 的 enable.auto.commit = true 表示自动提交max.poll.records 可以设置每次拉取...
2019-08-21 17:30:36
502
原创 记 第一个Eclipse+Spring MVC+Maven+Mybatis+Mysql 项目遇到的问题及解决方案
配置文件spring-mybatis-servlet.xmlcontroller, service, dao 的扫描路径根视图,视图层配置(prefix, suffix)静态资源js, css, img 配置dataSource配置 + sqlSessionFactory + dao下面的xml文件transaction managerweb.xmlfilter & ser...
2019-08-20 09:49:01
217
原创 Python2 中文字典读写
Python2 中文字典读写Intro几个préacquis读取写入读取字典完成代码Intro在做新词提取任务时,被python2的编码恶心到了,研究了半天,整理出一下tips,希望以后不要被编码问题折磨了。!ps. 直接从notebook里复制来的,就变成了图片。完整代码在最后。几个préacquis读取写入读取字典完成代码...
2019-07-11 16:46:49
764
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人