
Python
文章平均质量分 86
starry0001
这个作者很懒,什么都没留下…
展开
-
万字详述推荐系统经典模型DCN,DCN_v2,PNN
公众号:ChallengeHub(持续分析机器学习,数据挖掘,推荐系统,NLP方面的知识)之前文章介绍了特征交叉的一些方式和几种推荐系统中关于特征交叉的一些论文。上篇文章中主要介绍了wide&deep,deepFM,和NFM模型。其中wide&deep,和deepFM模型的特征交叉就一层,属于浅度的特征交叉,NFM可以实现更深的特征交叉。这篇文章将介绍两种经典的推荐模型,它们可以实现更深度的特征交叉。分别为DCN,DCN_v2和PNN。1:DCN论文名称:Deep & Cros原创 2022-03-29 20:49:35 · 5735 阅读 · 1 评论 -
如何采用FM进行召回
FM算法大家应该比较熟悉吧,如果不熟悉的话可以看看张俊林大佬的这篇文章:https://zhuanlan.zhihu.com/p/58160982(不知道为啥,想到FM我就想到微博推荐)。看完了那我们就可以复习一下:FM:y=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,vj>xixjFM:y=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_jFM:y=w0+∑i=1nwix原创 2022-01-13 19:06:47 · 1404 阅读 · 1 评论 -
集成树模型系列之一——随机森林
集成树模型系列之一——随机森林随机森林一般会被认为集成树模型的开端,虽然现在工业或者比赛中都很少会被应用,学习集成树模型都绕不过它,它的一些思想被广泛地应用到后面的集成树模型中。随机森林这个取名非常地贴切,涵括了它最重要的2个特征:“随机”,“森林”。森林顾名思义肯定涵盖了很多棵树,随机森林也恰是很多棵决策数组合而成的。那么它是怎么组合而成的呢?我们先引入几个概念:一:bagging和boosting。1:Bagging即套袋法,在多数情况下,bagging 方法提供了一种非常简单的方式来对单一模原创 2021-10-26 23:56:32 · 591 阅读 · 0 评论 -
万字长文记录我的leetcode辛酸史
时间在2021年6月12号,由于端午节回家了,只有一个轻薄本,做不了我被虐待体无完肤的微信赛。加上前几天看了下重楼大哥打leetcode周赛的视频,看的我热血澎湃,由于重楼大哥答题速度很快,于是我看的也很快,给了我一种我上我也行的错觉,于是今天下午就登上了好久不登录的leetcode账号。实打实的菜鸟一枚。由于是周六,所以并没有周赛,所以只能做做上周(244周)的题:首先进入第一题:看了几眼后明白了这个题目就判断一个正方形的矩阵旋转0°,90°,180°,270°之后与目标的target是否一样原创 2021-06-13 12:08:43 · 200 阅读 · 0 评论 -
决策树代码代码——python源代码,看完你就完全懂了
决策树决策树在周志华的西瓜书里面已经介绍的很详细了(西瓜书P73-P79),那也是我看过讲的最清楚的决策树讲解了,我这里就不献丑了,这篇文章主要是分享决策树的代码。在西瓜书中介绍了三种决策树,分别为ID3,C4.5和CART三种决策树,三种树出了分裂的计算方法不一样之外,其余的都一样,大家可以多看看书,如果有什么不清楚的可以看看我的代码,决策树的代码算是很简单的了,我有朋友面试的时候就被要求写决策树代码。话不多说了,下面开始吧。本篇文章的数据来自于西瓜中的西瓜数据,也是我纯手打下来的。下面一起看看代码原创 2021-05-20 23:59:29 · 5537 阅读 · 0 评论 -
梧桐杯重庆赛道B榜第二名开源代码
梧桐杯重庆赛道B榜第二名开源代码数据读取:特征工程建模继上次的金融赛道Top1开源后,这次给大家贡献的是城市赛道B榜第二名的代码。该代码来自我们ChallengeHub的队伍(不是吧asir,Winto还有初九),感谢他们的开源(全部代码,无任何私藏)。玩过该比赛的人应该也知道,该赛道其实前排差距很小,并且AB榜之间其实还是有一些差距的,最后的得分其实还是需要凭借一点运气的,因此开源代码仅供大家参考,学习一下特征工程的思路。废话不多说,直接开始吧。首先比赛链接:https://js.dclab.run原创 2021-05-20 23:38:19 · 1174 阅读 · 0 评论 -
隐形马尔可夫链代码——python源代码,看完你就完全懂了
隐形马尔可夫链代码隐形马尔可夫链在李航的统计学习方法里面已经介绍的很详细了,我这里就不献丑了,这篇文章主要是分享隐形马尔可夫链的代码。隐形马尔可夫有三个问题:1、概率计算问题class HMM1: def __init__(self): self.A=[[0,1,0,0],[0.4,0,0.6,0],[0,0.4,0,0.6],[0,0,0.5,0.5]] ##转移概率 self.B=[[0.5,0.5],[0.3,0.7],[0.6,0.4],[原创 2021-04-24 23:25:41 · 1412 阅读 · 0 评论 -
PySpark:结构化流
PySpark三: 结构化流很多人应该已经听说过spark中的Streaming数据这个概念,这也是sprak的亮点之一。这章我们就来简单的介绍spark中Streaming的概念以及pyspark中Streaming数据的一些简单操作方法。如果是直接观看这篇文章的朋友可以先观看一下我之前的两篇文章,里面会有Pyspark基础的操作语法和hadoop环境的配置(不配置hadoop环境的话是无法运行这章的代码的)首先我们来介绍一些基础的概念:1、Batch 与 StreamBatch data与Str原创 2021-04-07 22:05:37 · 487 阅读 · 0 评论 -
数组两端取数问题中的先手优势
数组两端取数问题中的先手优势一:问题背景今天给大家分享一个LeetCode的算法题,其实不是出自于leetcode,出自我们ChallengeHub公众号同学的面试题目。二:问题描述已知任意一个正整数的数组nums,它满足两个条件:a、元素的个数是偶数,b、所有数据的和为奇数现在指定A,B两个人轮流从这个数组中取数,但是每个人只能从首或尾选择1个。两人依次拿完之后,各自将其手上所有的数字加起来,谁的和大谁取得胜利。例子: [5,3,4,5] A先选择5,B也...原创 2021-03-28 23:18:01 · 1896 阅读 · 0 评论 -
pyspark学习(一)—pyspark的安装与基础语法
pyspark学习(一)原创StarryChallengeHub公众号一 Pysaprk的安装最近想学pyspark,于是想起了要更这个系列,由于本人也是不是特别熟悉,如果有什么错误的地方希望大家多多见谅,要是指正的话那就更好了。条件简陋,只有一台笔记本,于是该系列应该全部都是在本地运行了。首先,pyspark的安装,单机版的Pyspark安装起来也十分简单。1pipinstallpyspark 如果出现错误可能是pip版本原因,可以输入以下...原创 2021-03-07 14:39:25 · 4039 阅读 · 0 评论 -
Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结
Kaggle系列- Russia房产价格预测top1%(22/3270)方案总结原创致GreatChallengeHub公众号一起加入这次沉浸式学习吧,本次分享的方案基本上包好了结构化数据比赛的基本流程:数据分析、数据预处理,特征工程、模型训练以及模型融合,大家可以留在周末学习一波。比赛名称:Sberbank Russian Housing Market 比赛链接:https://www.kaggle.com/c/sberbank-russian-housing-market1...原创 2021-03-07 14:30:41 · 779 阅读 · 0 评论 -
CCF2020企业非法集资风险预测-季军方案
CCF2020企业非法集资风险预测-季军方案原创四位靓仔ChallengeHub公众号大家好,我们是四位靓仔团队,团队成员有:致Great、lrhao、姜小帅、朋飞,感谢队友们的辛勤付出;此次赛题有四千多人参加、三千多只队伍,作为常见的风控模型,也是最卷的赛题,本次比赛也是在答辩之后取得季军的成绩。01 赛题背景 非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。 ...原创 2021-03-06 23:00:06 · 1653 阅读 · 2 评论 -
CCF2020大数据时代的Serverless工作负载预测-亚军方案
CCF2020大数据时代的Serverless工作负载预测-亚军方案原创WintoMTChallengeHub公众号比赛链接:https://www.datafountain.cn/competitions/468大家好,我们是湘菜是真的辣团队,团队成员有:WintoMT、不是吧啊sir、lrhao、cy和小熊,感谢队友的辛勤付出。历时3个多月的CCF大数据与计算智能大赛总算落下了帷幕,比赛过程中历经各种波折,最终我们获得了A榜第二,B榜第三的成绩。1:赛题背景云计算时代,...原创 2021-03-06 22:53:17 · 1019 阅读 · 0 评论 -
GAN对抗网络入门教程
2020CCF虚拟身份归一处理性能优化-冠军方案原创翼数所普拉斯ChallengeHub1月25日收录于话题#最优化竞赛开源4个2020CCF虚拟身份归一处理性能优化-冠军方案团队介绍 本次冠军方案由翼数所普拉斯团队分享,该团队在2020CCF数据湖赛道也取得了亚军成绩,让我们看看最优化大佬的专属自己的一套解决方案吧!学废了你也是冠军潜力种子选手! 赛题链接https://www.datafountai...原创 2021-03-06 22:38:51 · 873 阅读 · 0 评论 -
Leetcode_138带有随机指针链表的复制(Copy List with Random Pointer)
"""# Definition for a Node.class Node: def __init__(self, val, next, random): self.val = val self.next = next self.random = random"""class Solution: def copyRandomL...原创 2019-10-17 15:24:36 · 151 阅读 · 0 评论